## Pandas y DataFrames

Pandas es una librería **fundamental** en Python para la **manipulación y análisis de datos**.  Proporciona estructuras de datos de alto rendimiento y fáciles de usar, así como herramientas para trabajar con estos datos. El corazón de Pandas es el **DataFrame**.

### ¿Qué es un DataFrame?

Imagina una **tabla** de datos, como una hoja de cálculo de Excel o una tabla de una base de datos. Un DataFrame en Pandas es muy similar:

*   **Estructura tabular:** Organiza los datos en **filas y columnas**.
*   **Columnas con nombre:** Cada columna tiene un **nombre** (etiqueta) que describe los datos que contiene (por ejemplo, "Nombre", "Edad", "País").
*   **Índice:** Cada fila tiene un **índice**, que por defecto es numérico (0, 1, 2, ...), pero puede ser personalizado.
*   **Tipos de datos mixtos:**  A diferencia de las matrices NumPy, un DataFrame puede contener **diferentes tipos de datos** en sus columnas (números, texto, fechas, etc.).

**En resumen, un DataFrame es una manera poderosa y flexible de representar y manipular datos tabulares en Python.**

### ¿Para qué se usa Pandas y DataFrames?

Pandas y DataFrames son increíblemente útiles para una amplia gama de tareas relacionadas con los datos:

*   **Análisis de datos exploratorio (EDA):**  Investigar y comprender conjuntos de datos.
*   **Limpieza y preparación de datos (Data Cleaning):**  Manejar datos faltantes, inconsistentes o erróneos.
*   **Manipulación de datos:**  Filtrar, ordenar, agrupar, combinar y transformar datos.
*   **Análisis estadístico:**  Calcular estadísticas descriptivas, aplicar funciones matemáticas.
*   **Visualización de datos:**  Crear gráficos básicos directamente desde DataFrames (aunque para visualizaciones más avanzadas se suelen usar otras librerías como Matplotlib o Seaborn).
*   **Lectura y escritura de datos:** Importar y exportar datos desde y hacia diversos formatos (CSV, Excel, SQL, JSON, etc.).

### Puntos Clave de los DataFrames

*   **Indexación y Selección:**  Puedes acceder a los datos de un DataFrame de muchas maneras:
    *   Por **etiqueta de columna:** `df['Nombre_columna']`
    *   Por **posición (índice numérico):**  `.iloc[]`
    *   Por **etiqueta de índice:** `.loc[]`
    *   **Indexación booleana (filtrado):** `df[df['Edad'] > 25]`

*   **Manipulación de Columnas:**
    *   **Añadir nuevas columnas:** `df['Nueva_columna'] = valores`
    *   **Eliminar columnas:** `del df['Columna_a_eliminar']` o `df.drop('Columna_a_eliminar', axis=1, inplace=True)`
    *   **Renombrar columnas:** `df.rename(columns={'Viejo_nombre': 'Nuevo_nombre'}, inplace=True)`

*   **Manipulación de Filas:**
    *   **Añadir nuevas filas:** `.append()` (aunque no es la forma más eficiente para grandes DataFrames)
    *   **Eliminar filas:** `df.drop(index=[índices_a_eliminar], inplace=True)`
    *   **Filtrar filas (seleccionar un subconjunto):**  Indexación booleana.

*   **Operaciones Comunes:**
    *   **`head()` y `tail()`:**  Ver las primeras o últimas filas del DataFrame.
    *   **`info()`:**  Obtener información sobre el DataFrame (tipos de datos, valores no nulos, uso de memoria).
    *   **`describe()`:**  Calcular estadísticas descriptivas para columnas numéricas.
    *   **`sort_values()`:**  Ordenar el DataFrame por una o varias columnas.
    *   **`groupby()`:**  Agrupar filas según los valores de una columna y realizar operaciones (suma, media, etc.) en cada grupo.
    *   **`merge()` y `concat()`:**  Combinar DataFrames.

### Casos de Uso Correctos e Incorrectos

**Casos de Uso Correctos:**

*   **Análisis de datos de ventas:**  Cargar datos de ventas desde un CSV, calcular totales por producto, región, etc., identificar tendencias, crear informes.
    *   **Ejemplo:** Calcular el promedio de ventas por categoría de producto.
*   **Limpieza de datos de encuestas:**  Manejar respuestas faltantes, estandarizar formatos de texto, convertir tipos de datos, filtrar respuestas inválidas.
    *   **Ejemplo:**  Rellenar valores faltantes en la columna "Edad" con la mediana de edad.
*   **Análisis de datos financieros:**  Cargar datos bursátiles, calcular indicadores financieros, analizar series temporales de precios.
    *   **Ejemplo:** Calcular el promedio móvil de una acción durante los últimos 30 días.
*   **Procesamiento de datos de registros (logs):**  Analizar logs de servidores web, identificar patrones de acceso, errores, etc.
    *   **Ejemplo:** Contar la frecuencia de diferentes códigos de estado HTTP en un log.
*   **Preparación de datos para Machine Learning:**  Preprocesar datos para modelos de aprendizaje automático (normalización, escalado, codificación de variables categóricas).

**Casos de Uso Incorrectos (o Menos Ideales):**

*   **Aplicaciones de alto rendimiento que requieren extrema velocidad:**  Pandas está construido sobre NumPy, que es eficiente, pero para cálculos extremadamente intensivos o de muy baja latencia, podrías considerar librerías de más bajo nivel o lenguajes como C++ o Fortran.
*   **Procesamiento de datos en tiempo real con requisitos muy estrictos:**  Aunque Pandas puede manejar datos en tiempo real hasta cierto punto, para sistemas de streaming de datos de alta velocidad con requisitos de latencia muy bajos, existen otras herramientas más especializadas (como Apache Kafka, Apache Flink, etc.).
*   **Datasets extremadamente grandes que no caben en la memoria RAM:**  Pandas carga los DataFrames en la memoria RAM. Si trabajas con datasets que superan la memoria disponible, necesitarás técnicas como "chunking" (procesar datos en fragmentos) o usar bases de datos o frameworks de procesamiento distribuido (como Spark o Dask).
*   **Tareas que no son inherentemente tabulares:**  Si tus datos no tienen una estructura tabular natural (por ejemplo, datos de grafos, datos de audio, imágenes), Pandas no será la herramienta principal, aunque podría usarse para preprocesamiento o análisis de metadatos.
*   **Simples bucles o iteraciones:**  Evita usar bucles `for` para iterar sobre filas de un DataFrame si es posible. Pandas está optimizado para operaciones vectorizadas, que son mucho más rápidas. Siempre busca funciones Pandas que realicen la operación deseada de forma eficiente.

### Ejemplos Prácticos

**Ejemplo 1: Creación de un DataFrame desde un diccionario**

In [None]:
!pip install pandas

In [1]:
import pandas as pd

# Diccionario con datos de personas
datos = {
    'Nombre': ['Ana', 'Juan', 'Sofía', 'Carlos'],
    'Edad': [25, 30, 22, 35],
    'Ciudad': ['Madrid', 'Barcelona', 'Valencia', 'Sevilla']
}

# Crear DataFrame
df = pd.DataFrame(datos)

# Imprimir el DataFrame
print(df)

   Nombre  Edad     Ciudad
0     Ana    25     Madrid
1    Juan    30  Barcelona
2   Sofía    22   Valencia
3  Carlos    35    Sevilla


**Ejemplo 2: Lectura de un DataFrame desde un archivo CSV**

In [2]:
import pandas as pd

df_ventas = pd.read_csv('file.csv')

print(df_ventas)

   ID    Producto  Precio  Stock
0   1  Producto 1     100     10
1   2  Producto 2     200     20
2   3  Producto 3     300     30
3   4  Producto 4     400     40


**Ejemplo 3:  Manipulación y Análisis Básico**

In [3]:
import pandas as pd

datos = {
    'Nombre': ['Ana', 'Juan', 'Sofía', 'Carlos', 'Ana'],
    'Edad': [25, 30, 22, 35, 25],
    'Ciudad': ['Madrid', 'Barcelona', 'Valencia', 'Sevilla', 'Madrid'],
    'Ventas': [100, 150, 80, 200, 120]
}
df = pd.DataFrame(datos)

# 1. Filtrar personas mayores de 25 años
mayores_25 = df[df['Edad'] > 25]
print("\nPersonas mayores de 25 años:\n", mayores_25)

# 2. Calcular la edad promedio
edad_promedio = df['Edad'].mean()
print("\nEdad promedio:", edad_promedio)

# 3. Agrupar por ciudad y sumar las ventas por ciudad
ventas_por_ciudad = df.groupby('Ciudad')['Ventas'].sum()
print("\nVentas por ciudad:\n", ventas_por_ciudad)

# 4. Ordenar por edad de forma descendente
df_ordenado_edad = df.sort_values(by='Edad', ascending=False)
print("\nDataFrame ordenado por edad:\n", df_ordenado_edad)


Personas mayores de 25 años:
    Nombre  Edad     Ciudad  Ventas
1    Juan    30  Barcelona     150
3  Carlos    35    Sevilla     200

Edad promedio: 27.4

Ventas por ciudad:
 Ciudad
Barcelona    150
Madrid       220
Sevilla      200
Valencia      80
Name: Ventas, dtype: int64

DataFrame ordenado por edad:
    Nombre  Edad     Ciudad  Ventas
3  Carlos    35    Sevilla     200
1    Juan    30  Barcelona     150
0     Ana    25     Madrid     100
4     Ana    25     Madrid     120
2   Sofía    22   Valencia      80


Ejercicio 1: Análisis de Ventas

In [4]:
import pandas as pd
import numpy as np

# ---- Generación de datos dummy ---- #

np.random.seed(42)
num_registros = 500

fechas = pd.date_range(start='2024-01-01', end='2024-12-31', freq='D')
fechas = np.random.choice(fechas, num_registros)
productos = ['Camiseta', 'Pantalón', 'Zapatos', 'Bolso', 'Sombrero']
categorias = ['Ropa', 'Ropa', 'Calzado', 'Accesorios', 'Accesorios']
precios = np.random.uniform(10, 100, num_registros)
cantidades = np.random.randint(1, 5, num_registros)
ciudades = ['Cartagena', 'Barranquilla', 'Medellin', 'Bogota', 'Cali']

data = {
    'Fecha': fechas,
    'Producto': np.random.choice(productos, num_registros),
    'Categoría': [categorias[productos.index(p)] for p in np.random.choice(productos, num_registros)],
    'Precio': precios,
    'Cantidad': cantidades,
    'Ciudad': np.random.choice(ciudades, num_registros)
}

df_data = pd.DataFrame(data)
df_data = df_data.sort_values(by='Fecha').reset_index(drop=True)

# ---- Guardar el DataFrame en un archivo CSV ---- #

df_data.to_csv('ventas.csv', index=False)

print("Archivo 'ventas.csv' creado exitosamente.")

Archivo 'ventas.csv' creado exitosamente.


In [5]:
ventas_df = pd.read_csv('ventas.csv')

# 1. Total de ventas por categoría y ciudad
ventas_df['Ventas_Totales'] = ventas_df['Precio'] * ventas_df['Cantidad']
ventas_por_categoria_ciudad = ventas_df.groupby(['Categoría', 'Ciudad'])['Ventas_Totales'].sum().reset_index()
print("Ventas por categoría y ciudad:\n", ventas_por_categoria_ciudad)


# 2. Producto más vendido en cada ciudad
ventas_por_ciudad_producto = ventas_df.groupby(['Ciudad', 'Producto'])['Cantidad'].sum().reset_index()
idx = ventas_por_ciudad_producto.groupby(['Ciudad'])['Cantidad'].idxmax()
producto_mas_vendido = ventas_por_ciudad_producto.loc[idx]
print("\nProducto más vendido en cada ciudad:\n", producto_mas_vendido)


# 3. Ingreso total por mes
ventas_df['Fecha'] = pd.to_datetime(ventas_df['Fecha'])
ventas_df['Mes'] = ventas_df['Fecha'].dt.to_period('M')
ingresos_por_mes = ventas_df.groupby('Mes')['Ventas_Totales'].sum().reset_index()
print("\nIngresos totales por mes:\n", ingresos_por_mes)

Ventas por categoría y ciudad:
      Categoría        Ciudad  Ventas_Totales
0   Accesorios  Barranquilla     4856.494279
1   Accesorios        Bogota     7236.321352
2   Accesorios          Cali     6469.774638
3   Accesorios     Cartagena     5471.181401
4   Accesorios      Medellin     5414.420651
5      Calzado  Barranquilla     1814.131212
6      Calzado        Bogota     2590.845053
7      Calzado          Cali     1543.627284
8      Calzado     Cartagena     3308.760687
9      Calzado      Medellin     2374.519139
10        Ropa  Barranquilla     5138.076625
11        Ropa        Bogota     6849.731890
12        Ropa          Cali     4235.234010
13        Ropa     Cartagena     5618.909497
14        Ropa      Medellin     5393.374709

Producto más vendido en cada ciudad:
           Ciudad  Producto  Cantidad
1   Barranquilla  Camiseta        53
7         Bogota  Pantalón        84
11          Cali  Camiseta        60
18     Cartagena  Sombrero        70
22      Medellin  Pantal

Ejercicio 2: Procesamiento de Datos de Encuestas

In [None]:
import pandas as pd
import numpy as np

# --- data dummy ---#

np.random.seed(42)
num_encuestados = 100

ids = range(1, num_encuestados + 1)
edades = np.random.randint(18, 65, num_encuestados)
generos = np.random.choice(['Hombre', 'Mujer', 'Otro'], num_encuestados)
ingresos = np.random.uniform(15000, 90000, num_encuestados)
satisfaccion = np.random.randint(1, 6, num_encuestados)
comentarios = ['Comentario ' + str(i) for i in range(1, num_encuestados + 1)]

# Introducir algunos NaN de forma aleatoria en 'Edad', 'Ingresos' y 'Satisfacción'
edades = [x if np.random.rand() > 0.1 else np.nan for x in edades]
ingresos = [x if np.random.rand() > 0.1 else np.nan for x in ingresos]
satisfaccion = [x if np.random.rand() > 0.1 else np.nan for x in satisfaccion]


data = {
    'ID': ids,
    'Edad': edades,
    'Género': generos,
    'Ingresos': ingresos,
    'Satisfacción': satisfaccion,
    'Comentarios': comentarios
}

df_data = pd.DataFrame(data)

df_data.to_csv('encuestas.csv', index=False)
# --- data dummy ---#

encuestas_df = pd.read_csv('encuestas.csv')

# 1. Limpiar el DataFrame (eliminar filas con NaN en columnas específicas)
encuestas_limpias = encuestas_df.dropna(subset=['Edad', 'Ingresos', 'Satisfacción']).copy()

# 2. Satisfacción promedio por género
satisfaccion_por_genero = encuestas_limpias.groupby('Género')['Satisfacción'].mean().reset_index()
print("Satisfacción promedio por género:\n", satisfaccion_por_genero)

# 3. Crear columna 'Nivel_Ingresos'
def categorizar_ingresos(ingreso):
    if ingreso < 30000:
        return 'Bajo'
    elif ingreso <= 70000:
        return 'Medio'
    else:
        return 'Alto'

encuestas_limpias.loc[: ,'Nivel_Ingresos'] = encuestas_limpias['Ingresos'].apply(categorizar_ingresos)

# 4. Satisfacción promedio por 'Nivel_Ingresos' y Género
satisfaccion_por_nivel_genero = encuestas_limpias.groupby(['Nivel_Ingresos', 'Género'])['Satisfacción'].mean().reset_index()
print("\nSatisfacción promedio por nivel de ingresos y género:\n", satisfaccion_por_nivel_genero)

In [10]:


netfliox_df= pd.read_csv('netflix_titles.csv')

print(netfliox_df)

     show_id     type                  title         director  \
0         s1    Movie   Dick Johnson Is Dead  Kirsten Johnson   
1         s2  TV Show          Blood & Water              NaN   
2         s3  TV Show              Ganglands  Julien Leclercq   
3         s4  TV Show  Jailbirds New Orleans              NaN   
4         s5  TV Show           Kota Factory              NaN   
...      ...      ...                    ...              ...   
8802   s8803    Movie                 Zodiac    David Fincher   
8803   s8804  TV Show            Zombie Dumb              NaN   
8804   s8805    Movie             Zombieland  Ruben Fleischer   
8805   s8806    Movie                   Zoom     Peter Hewitt   
8806   s8807    Movie                 Zubaan      Mozez Singh   

                                                   cast        country  \
0                                                   NaN  United States   
1     Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...   South Africa 