# üìñ Resumen del cap√≠tulo: DataFrames en la librer√≠a Pandas

Este cap√≠tulo introduce los conceptos fundamentales de pandas y DataFrames, herramientas esenciales para el an√°lisis y manipulaci√≥n de datos en Python. Se enfoca en:

- Comprensi√≥n de la librer√≠a pandas
    - Entender pandas como la librer√≠a m√°s utilizada para procesamiento de datos, superior a hojas de c√°lculo para grandes vol√∫menes de informaci√≥n
- Importaci√≥n y alias de pandas
    - Dominar la sintaxis est√°ndar para importar pandas usando el alias pd para facilitar su uso posterior
- Estructura del DataFrame
    - Comprender los DataFrames como estructuras bidimensionales similares a tablas con filas indexadas y columnas nombradas
- Creaci√≥n de DataFrames
    - Aplicar la clase DataFrame() para convertir listas anidadas en estructuras de datos organizadas
- Argumentos data y columns
    - Utilizar correctamente los par√°metros necesarios para construir DataFrames con datos y nombres de columnas
- Documentaci√≥n de datos
    - Interpretar la importancia de documentar columnas para comprender completamente la estructura y contenido de los datos

# üìã Listado completo de comandos utilizados:

### Importaci√≥n de librer√≠a:
- import pandas - Importa la librer√≠a pandas completa
- import pandas as pd - Importa pandas con alias pd (pr√°ctica est√°ndar)

### Creaci√≥n de DataFrame:
- pd.DataFrame() - Clase para crear objetos DataFrame
- data= - Par√°metro que acepta listas anidadas con los datos
- columns= - Par√°metro que acepta lista con nombres de columnas

### Funci√≥n de salida:
- print() - Muestra el contenido del DataFrame creado

### Estructuras de datos:
- [ ] - Listas para almacenar datos y nombres de columnas
- [[ ]] - Listas anidadas para representar filas de datos

In [None]:
# Ejemplos de uso mostrados:

# Importaci√≥n est√°ndar:
import pandas as pd

# Preparaci√≥n de datos:
atlas = [
    ['France', 'Paris'],
    ['Russia', 'Moscow'],
    ['China', 'Beijing'],
    ['Mexico', 'Mexico City'],
    ['Egypt', 'Cairo']
]
geography = ['country', 'capital']

# Creaci√≥n de DataFrame:
world_map = pd.DataFrame(data=atlas, columns=geography)
print(world_map)

### Conceptos clave cubiertos:
- Librer√≠a pandas
- Colecci√≥n de c√≥digo especializada en procesamiento y an√°lisis de datos, superior a hojas de c√°lculo para grandes vol√∫menes
- DataFrame
- Estructura de datos bidimensional similar a una tabla, donde cada elemento tiene coordenadas de fila y columna
- √çndices
- Identificadores num√©ricos que permiten acceder a las filas del DataFrame, comenzando desde 0
- Columnas nombradas
- Atributos que describen las caracter√≠sticas de las entidades almacenadas en cada fila del DataFrame
- Clase DataFrame()
- Plantilla para crear objetos DataFrame que requiere argumentos data y columns
- Importaci√≥n con alias
- Pr√°ctica est√°ndar de usar pd como abreviatura para acceder a las funcionalidades de pandas

## ü§î Pregunta para reflexionar:
¬øPor qu√© crees que es importante convertir datos de listas anidadas a DataFrames antes de analizarlos? Piensa en las ventajas que podr√≠a ofrecer tener datos organizados en columnas con nombres espec√≠ficos versus trabajar directamente con listas.


# üìñ Resumen del cap√≠tulo: Importaci√≥n y uso de paquetes

Este cap√≠tulo introduce los conceptos fundamentales para comenzar a trabajar con la librer√≠a pandas, estableciendo las bases para el an√°lisis y manipulaci√≥n de datos en Python. Se enfoca en:

- Importaci√≥n de la librer√≠a pandas
    - Dominar la sintaxis para importar pandas y comprender la importancia de usar el alias est√°ndar pd para facilitar el trabajo posterior
- Comprensi√≥n de clases y objetos
    - Entender que las clases son plantillas para crear objetos, siendo DataFrame() la clase m√°s utilizada en pandas
- Creaci√≥n de DataFrames b√°sicos
    - Aplicar la clase DataFrame() con sus argumentos data y columns para convertir listas anidadas en estructuras de datos organizadas
- Preparaci√≥n de datos estructurados
    - Organizar informaci√≥n en listas anidadas que representen filas de datos con caracter√≠sticas espec√≠ficas
- Documentaci√≥n de columnas
    - Crear listas de nombres descriptivos para las columnas que faciliten la comprensi√≥n de los datos
- Visualizaci√≥n de resultados
    - Mostrar DataFrames creados para verificar la correcta estructuraci√≥n de los datos

# üìã Listado completo de comandos utilizados:

### Importaci√≥n de librer√≠a:
- import pandas - Importa la librer√≠a pandas completa
- import pandas as pd - Importa pandas con alias pd (pr√°ctica est√°ndar)

### Creaci√≥n de DataFrame:
- pd.DataFrame() - Clase para crear objetos DataFrame
- data= - Par√°metro que acepta listas anidadas con los datos
- columns= - Par√°metro que acepta lista con nombres de columnas

### Estructuras de datos:
- [ ] - Listas simples para nombres de columnas
- [[ ]] - Listas anidadas para representar filas de datos

### Funci√≥n de salida:
- print() - Muestra el contenido del DataFrame creado

In [None]:
# Ejemplos de uso mostrados:

# Importaci√≥n est√°ndar:
import pandas as pd

# Preparaci√≥n de datos:
atlas = [
    ['France', 'Paris'],
    ['Russia', 'Moscow'],
    ['China', 'Beijing'],
    ['Mexico', 'Mexico City'],
    ['Egypt', 'Cairo']
]
geography = ['country', 'capital']

# Creaci√≥n de DataFrame:
world_map = pd.DataFrame(data=atlas, columns=geography)
print(world_map)
# Ejemplo con datos de m√∫sica:
music = [
    ['Bob Dylan', 'Like A Rolling Stone'],
    ['John Lennon', 'Imagine'],
    ['The Beatles', 'Hey Jude'],
    ['Nirvana', 'Smells Like Teen Spirit']
]
entries = ['artist', 'track']
playlist = pd.DataFrame(data=music, columns=entries)

### Conceptos clave cubiertos:
- Librer√≠a pandas
- Colecci√≥n especializada de c√≥digo para procesamiento y an√°lisis de datos, superior a hojas de c√°lculo tradicionales
- Alias de importaci√≥n
- Pr√°ctica est√°ndar de usar pd como abreviatura para referenciar pandas en el c√≥digo
- Clase DataFrame()
- Plantilla principal para crear objetos DataFrame que requiere argumentos data y columns
- Listas anidadas
- Estructura de datos donde cada sublista representa una fila con m√∫ltiples valores relacionados
- Argumentos data y columns
- Par√°metros esenciales donde data acepta los datos y columns acepta los nombres descriptivos
- Conversi√≥n de datos
- Proceso de transformar datos sin procesar en estructuras organizadas y etiquetadas

## ü§î Pregunta para reflexionar:
¬øPor qu√© crees que es importante estructurar los datos en listas anidadas antes de crear un DataFrame? ¬øQu√© ventajas ofrece pandas DataFrame comparado con trabajar solo con listas de Python para el an√°lisis de datos?

# üìñ Resumen del cap√≠tulo: Pandas para archivos de Excel y CSV

Este cap√≠tulo introduce las t√©cnicas fundamentales para trabajar con archivos de datos externos en pandas, estableciendo las bases para el an√°lisis de datos del mundo real. Se enfoca en:

- Transici√≥n de datos creados manualmente a archivos externos
    - Comprender que en la pr√°ctica profesional se trabaja con archivos de datos existentes en lugar de crear DataFrames desde listas anidadas
- Carga de archivos CSV
    - Dominar la funci√≥n pd.read_csv() para importar datos desde archivos de valores separados por comas directamente a DataFrames
- Exploraci√≥n inicial de datos
    - Aplicar m√©todos como head() y tail() para obtener una vista r√°pida de las primeras y √∫ltimas filas del conjunto de datos
- Inspecci√≥n de estructura de datos
    - Utilizar el m√©todo info() para comprender la estructura, tipos de datos y caracter√≠sticas generales del DataFrame cargado
- Preparaci√≥n para an√°lisis
    - Establecer las bases para el an√°lisis de datos mediante la correcta importaci√≥n y exploraci√≥n inicial de conjuntos de datos externos
- Trabajo con rutas de archivos
    - Comprender c√≥mo especificar correctamente las rutas de archivos para acceder a datos almacenados en el sistema

# üìã Listado completo de comandos utilizados:

### Importaci√≥n de librer√≠a:
- import pandas as pd - Importa pandas con alias est√°ndar para trabajar con datos

### Carga de archivos:
- pd.read_csv() - Funci√≥n para leer archivos CSV y convertirlos en DataFrames
- file_path - Variable para almacenar la ruta del archivo de datos

### Exploraci√≥n de datos:
- .head() - M√©todo para mostrar las primeras 5 filas del DataFrame
- .tail() - M√©todo para mostrar las √∫ltimas 5 filas del DataFrame
- .info() - M√©todo para inspeccionar la estructura completa del DataFrame

### Funci√≥n de salida:
- print() - Muestra el contenido de los m√©todos de exploraci√≥n

### Manejo de rutas:
- '/datasets/' - Ruta est√°ndar para acceder a archivos de datos en el entorno


In [None]:
# Ejemplos de uso mostrados:

# Importaci√≥n de pandas:
import pandas as pd

# Definir ruta del archivo:
file_path = '/datasets/DigiDB_digimonlist.csv'

# Cargar datos desde CSV:
df = pd.read_csv(file_path)

# Inspeccionar estructura del dataset:
df.info()

# Mostrar primeras 5 filas:
print(df.head())

# Mostrar √∫ltimas 5 filas:
print(df.tail())
# Ejemplo con datos de diabetes:
diabetes_data = pd.read_csv('/datasets/diabetes.csv')
diabetes_data.info()

### Conceptos clave cubiertos:
- Archivos CSV
- Formato de archivo de valores separados por comas, est√°ndar para almacenar datos tabulares de manera eficiente
- Funci√≥n read_csv()
- Herramienta principal de pandas para importar datos desde archivos CSV directamente a DataFrames
- Exploraci√≥n inicial
- Proceso de obtener una vista r√°pida de los datos mediante m√©todos como head() y tail()
- M√©todo info()
- Funci√≥n que proporciona informaci√≥n detallada sobre la estructura, tipos de datos y memoria utilizada por el DataFrame
- Rutas de archivos
- Direcciones espec√≠ficas que indican la ubicaci√≥n de los archivos de datos en el sistema de archivos
- Transici√≥n a datos reales
- Cambio de trabajar con datos creados manualmente a utilizar conjuntos de datos externos del mundo real

## ü§î Pregunta para reflexionar:
¬øPor qu√© crees que es importante explorar los datos con head(), tail() e info() antes de comenzar cualquier an√°lisis? ¬øQu√© problemas podr√≠as enfrentar si trabajas con un conjunto de datos sin conocer primero su estructura y caracter√≠sticas?

# üìñ Resumen del cap√≠tulo: Indexaci√≥n de un DataFrame
Este cap√≠tulo se enfoca en las t√©cnicas fundamentales para acceder y extraer datos espec√≠ficos de DataFrames en pandas. Se centra en:

- Comprensi√≥n de la indexaci√≥n
    - Entender que los √≠ndices en pandas comienzan en 0 y c√≥mo navegar por las posiciones de filas y columnas
- Notaci√≥n abreviada vs completa
    - Dominar las diferencias entre df['columna'] para selecci√≥n simple y df.loc[fila, columna] para selecci√≥n espec√≠fica
- Selecci√≥n de m√∫ltiples columnas
    - Aplicar la t√©cnica de doble corchetes para extraer varias columnas simult√°neamente
- Segmentaci√≥n de rangos
    - Utilizar rangos de √≠ndices para extraer porciones espec√≠ficas del DataFrame
- Extracci√≥n precisa de datos
    - Combinar t√©cnicas de indexaci√≥n para obtener exactamente la informaci√≥n necesaria

# üìã Listado completo de comandos utilizados:
### Selecci√≥n de columnas:
- df['columna']
### Selecciona una columna espec√≠fica (notaci√≥n abreviada)
- df[['col1', 'col2']]
- Selecciona m√∫ltiples columnas usando doble corchetes
### Indexaci√≥n por posici√≥n:
- df.loc[fila, columna]
### Selecciona celda espec√≠fica usando notaci√≥n completa
- df.loc[inicio:fin]
### Selecciona rango de filas
- df.loc[inicio:fin, 'columna']
- Selecciona rango de filas para columna espec√≠fica
### Segmentaci√≥n de rangos:
- df.loc[9:19]
### Extrae filas de la d√©cima a la vig√©sima (√≠ndices 9-19)
- df.loc[:, ['col1', 'col2']]
- Selecciona todas las filas para columnas espec√≠ficas


In [None]:
# Ejemplos de uso mostrados:

# Ejercicio 1 - Selecci√≥n de columna √∫nica:
import pandas as pd

df = pd.read_csv('/datasets/music_log_chpt_11.csv')

index_res = df['user_id']  # Notaci√≥n abreviada

print(index_res)

# Ejercicio 2 - Segmentaci√≥n de fila espec√≠fica con rango de columnas:
import pandas as pd

df = pd.read_csv('/datasets/music_log_chpt_11.csv')

index_res = df.loc[5, 'total play':'genre']  # Sexta fila (√≠ndice 5)

print(index_res)

# Ejercicio 3 - Selecci√≥n de m√∫ltiples columnas:
import pandas as pd

df = pd.read_csv('/datasets/music_log_chpt_11.csv')

index_res = df[['user_id', 'track']]  # Doble corchetes

print(index_res)

# Ejercicio 4 - Segmentaci√≥n de columna espec√≠fica con rango de filas:
import pandas as pd

df = pd.read_csv('/datasets/music_log_chpt_11.csv')

index_res = df.loc[2:10, 'genre']  # Tercera a und√©cima fila (√≠ndices 2-10) de la columna 'genre'

print(index_res)

# Ejercicio 5 - Extracci√≥n de rango espec√≠fico (d√©cima a vig√©sima fila):
import pandas as pd

df = pd.read_csv('/datasets/music_log_chpt_11.csv')

index_res = df.loc[9:19]  # D√©cima a vig√©sima fila (√≠ndices 9-19)

print(index_res)

### Conceptos clave cubiertos:
- Indexaci√≥n basada en cero
- Los DataFrames usan indexaci√≥n que comienza en 0, donde el d√©cimo elemento tiene √≠ndice 9
- Notaci√≥n abreviada
- M√©todo r√°pido para acceder a columnas completas usando corchetes simples
- Notaci√≥n completa
- M√©todo preciso usando .loc[] para especificar exactamente filas y columnas
- Segmentaci√≥n inclusiva
- Los rangos en pandas incluyen tanto el inicio como el final del rango especificado
- Selecci√≥n m√∫ltiple
- T√©cnica de usar listas dentro de corchetes para seleccionar varias columnas a la vez

## ü§î Pregunta para reflexionar:
¬øC√≥mo te ayudar√° dominar estas t√©cnicas de indexaci√≥n en tus an√°lisis futuros? Piensa en situaciones donde necesitar√≠as extraer datos espec√≠ficos de grandes conjuntos de informaci√≥n y qu√© ventajas ofrece poder hacerlo de manera precisa y eficiente.


# üìñ Resumen del cap√≠tulo: Indexaci√≥n de un DataFrame
Este cap√≠tulo introduce las t√©cnicas fundamentales para acceder y extraer datos espec√≠ficos de DataFrames en pandas, herramientas esenciales para la manipulaci√≥n precisa de datos. Se enfoca en:

- Comprensi√≥n de la indexaci√≥n
    - Entender que los √≠ndices en pandas comienzan en 0 y c√≥mo el d√©cimo elemento corresponde al √≠ndice 9
- Notaci√≥n abreviada vs completa
    - Dominar las diferencias entre df['columna'] para selecci√≥n r√°pida y df.loc[fila, columna] para selecci√≥n espec√≠fica
- Selecci√≥n de m√∫ltiples columnas
    - Aplicar la t√©cnica de doble corchetes para extraer varias columnas simult√°neamente del DataFrame
- Segmentaci√≥n de rangos
    - Utilizar rangos de √≠ndices para extraer porciones espec√≠ficas de filas y columnas
- Extracci√≥n precisa de datos
    - Combinar t√©cnicas de indexaci√≥n para obtener exactamente la informaci√≥n necesaria para an√°lisis
- Navegaci√≥n eficiente
    - Interpretar la importancia de acceder a datos espec√≠ficos sin cargar informaci√≥n innecesaria

# üìã Listado completo de comandos utilizados:
### Importaci√≥n de librer√≠a:
- import pandas as pd
- Importa pandas con alias pd (pr√°ctica est√°ndar)
### Carga de datos:
- pd.read_csv()
- Carga archivos CSV en formato DataFrame
- '/datasets/music_log_chpt_11.csv'
- Ruta del archivo de datos musicales
### Selecci√≥n de columnas:
- df['columna']
- Selecciona una columna espec√≠fica (notaci√≥n abreviada)
- df[['col1', 'col2']]
- Selecciona m√∫ltiples columnas usando doble corchetes
### Indexaci√≥n por posici√≥n:
- df.loc[fila, columna]
- Selecciona celda espec√≠fica usando notaci√≥n completa
- df.loc[inicio:fin]
- Selecciona rango de filas
- df.loc[inicio:fin, 'columna']
- Selecciona rango de filas para columna espec√≠fica
###  Segmentaci√≥n de rangos:
- df.loc[9:19]
- Extrae filas de la d√©cima a la vig√©sima (√≠ndices 9-19)
- df.loc[2:10, 'genre']
- Extrae filas espec√≠ficas de una columna determinada
### Funci√≥n de salida:
- print()
- Muestra el resultado de las operaciones de indexaci√≥n

In [None]:
# Ejemplos de uso mostrados:

# Ejercicio 1 - Selecci√≥n de columna √∫nica:
import pandas as pd

df = pd.read_csv('/datasets/music_log_chpt_11.csv')

index_res = df['user_id']  # Notaci√≥n abreviada

print(index_res)

# Ejercicio 2 - Segmentaci√≥n de fila espec√≠fica con rango de columnas:
import pandas as pd

df = pd.read_csv('/datasets/music_log_chpt_11.csv')

index_res = df.loc[5, 'total play':'genre']  # Sexta fila (√≠ndice 5)

print(index_res)

# Ejercicio 3 - Selecci√≥n de m√∫ltiples columnas:
import pandas as pd

df = pd.read_csv('/datasets/music_log_chpt_11.csv')

index_res = df[['user_id', 'track']]  # Doble corchetes

print(index_res)

# Ejercicio 4 - Completado
# Enunciado: Utiliza la notaci√≥n abreviada para obtener las filas de la 10 a la 20 (ambas incluidas) del conjunto de datos. Asigna el resultado a la variable index_res.

import pandas as pd

df = pd.read_csv('/datasets/music_log_chpt_11.csv')

# Usando notaci√≥n abreviada para obtener filas 10-20 (√≠ndices 9-20)
index_res = df[9:21]  # Notaci√≥n abreviada excluye el final, por eso usamos 21

print(index_res)
# Explicaci√≥n: En la notaci√≥n abreviada, los slices excluyen el elemento final del rango, por lo que para incluir la fila 20 (√≠ndice 20), necesitamos usar df[9:21].

### Conceptos clave cubiertos:
- Indexaci√≥n por coordenadas: Acceso a celdas espec√≠ficas usando df.loc[fila, columna]
- Notaci√≥n completa vs. abreviada:
- Completa: .loc[] para especificar filas y columnas expl√≠citamente
- Abreviada: Uso directo de corchetes df[] para acceso m√°s conciso
- Diferencias importantes en notaci√≥n abreviada:
- Los slices excluyen el final del rango
- No permite acceso a una sola celda
- Limitada para ciertos tipos de selecci√≥n
- Tipos de selecci√≥n disponibles:
- Una columna: df['columna']
- M√∫ltiples columnas: df[['col1', 'col2']]
- Rangos de filas: df[inicio:fin]

## ü§î Pregunta para reflexionar:
¬øCu√°ndo es m√°s conveniente usar la notaci√≥n completa (.loc[]) versus la notaci√≥n abreviada para indexar un DataFrame, y qu√© ventajas ofrece cada una en diferentes escenarios de an√°lisis de datos?


# üìñ Resumen del cap√≠tulo: Filtrado con indexaci√≥n l√≥gica
Este cap√≠tulo se enfoca en t√©cnicas avanzadas de filtrado de datos usando condiciones l√≥gicas en pandas. Los temas principales incluyen:

- Comprensi√≥n de la indexaci√≥n l√≥gica
    - Entender c√≥mo usar condiciones booleanas para filtrar filas espec√≠ficas que cumplan criterios determinados
- Operadores de comparaci√≥n
    - Dominar el uso de operadores como ==, !=, >, <, >=, <= para crear condiciones de filtrado
- Filtrado con condiciones simples
    - Aplicar filtros b√°sicos usando una sola condici√≥n para obtener subconjuntos de datos
- Filtrado con condiciones m√∫ltiples
    - Combinar m√∫ltiples condiciones usando operadores l√≥gicos & (and) y | (or)
- M√©todo query()
    - Utilizar el m√©todo query() como alternativa m√°s legible para filtrar datos con sintaxis similar a SQL
- Filtrado por valores espec√≠ficos
    - Implementar filtros para buscar valores exactos, rangos o patrones espec√≠ficos en los datos

# üìã Listado completo de comandos utilizados:
### Importaci√≥n y carga de datos:
- import pandas as pd
- df = pd.read_csv('archivo.csv')
### Operadores de comparaci√≥n:
- == - Igual a
- != - Diferente de  
- > - Mayor que
- < - Menor que
- >= - Mayor o igual que
- <= - Menor o igual que

### Filtrado con condiciones simples:
- df[df['columna'] == 'valor']
- df[df['columna'] > 100]
- df[df['columna'] != 'valor']
### Operadores l√≥gicos para condiciones m√∫ltiples:
- & - Operador AND (y)
- | - Operador OR (o)
- ~ - Operador NOT (no)

### Filtrado con condiciones m√∫ltiples:
- df[(df['col1'] > 50) & (df['col2'] == 'valor')]
- df[(df['col1'] < 100) | (df['col2'] != 'valor')]
- M√©todo query():
- df.query('columna > 50')
- df.query('col1 > 50 and col2 == "valor"')
- df.query('col1 < 100 or col2 != "valor"')
### M√©todos auxiliares:
- .isin() - Verificar si valores est√°n en una lista
- .between() - Filtrar valores en un rango
- .isna() - Detectar valores nulos
- .notna() - Detectar valores no nulos


In [None]:
# Ejemplos de uso mostrados:
# Filtrado simple
usuarios_activos = df[df['status'] == 'active']

# Filtrado m√∫ltiple
usuarios_premium = df[(df['plan'] == 'premium') & (df['age'] >= 18)]

# Usando query()
resultado = df.query('age > 25 and city == "Madrid"')

# Usando isin()
ciudades_principales = df[df['city'].isin(['Madrid', 'Barcelona', 'Valencia'])]

### Conceptos clave cubiertos:
- Indexaci√≥n l√≥gica
- T√©cnica que permite filtrar DataFrames usando condiciones booleanas que eval√∫an cada fila
- M√°scaras booleanas
- Arrays de valores True/False que determinan qu√© filas incluir en el resultado filtrado
- Operadores de comparaci√≥n
- S√≠mbolos que permiten comparar valores de columnas con valores espec√≠ficos o otras columnas
- Operadores l√≥gicos
- Herramientas para combinar m√∫ltiples condiciones: & (and), | (or), ~ (not)
- M√©todo query()
- Alternativa m√°s legible para filtrar datos usando sintaxis similar a SQL, especialmente √∫til para condiciones complejas
- Filtrado condicional
- Proceso de seleccionar subconjuntos de datos bas√°ndose en criterios espec√≠ficos que deben cumplir las filas
- Encadenamiento de condiciones
- T√©cnica para combinar m√∫ltiples filtros usando par√©ntesis y operadores l√≥gicos para crear criterios complejos
- M√©todos auxiliares de filtrado
- Funciones especializadas como .isin(), .between(), .isna() y .notna() que facilitan tipos espec√≠ficos de filtrado
- Sintaxis de par√©ntesis
- Uso obligatorio de par√©ntesis al combinar condiciones m√∫ltiples para evitar errores de precedencia de operadores

## ü§î Pregunta para reflexionar:
¬øEn qu√© situaciones del an√°lisis de datos reales ser√≠a m√°s eficiente usar el m√©todo query() en lugar de la indexaci√≥n l√≥gica tradicional con corchetes, y c√≥mo puede el filtrado con m√∫ltiples condiciones ayudarte a obtener insights m√°s espec√≠ficos de tus datos?


# üìñ Resumen del cap√≠tulo: Vamos a contar y sumar
Este cap√≠tulo introduce las t√©cnicas fundamentales de agregaci√≥n y c√°lculo estad√≠stico en pandas, herramientas esenciales para el an√°lisis cuantitativo de datos. Se enfoca en:

- Comprensi√≥n de m√©todos de agregaci√≥n
    - Entender las funciones estad√≠sticas b√°sicas que permiten resumir y analizar grandes vol√∫menes de datos de manera eficiente
- Conteo de elementos
    - Dominar el uso de .count() para determinar la cantidad de valores no nulos en columnas espec√≠ficas
- Suma de valores num√©ricos
    - Aplicar el m√©todo .sum() para calcular totales de columnas num√©ricas y obtener insights cuantitativos
- C√°lculo de promedios
    - Utilizar .mean() para obtener valores promedio que representen tendencias centrales en los datos
- Valores extremos
    - Implementar .min() y .max() para identificar los valores m√≠nimos y m√°ximos en conjuntos de datos
- Agregaci√≥n por grupos
    - Combinar m√©todos de agregaci√≥n con filtrado para obtener estad√≠sticas espec√≠ficas de subconjuntos de datos

# üìã Listado completo de comandos utilizados:
### Importaci√≥n y carga de datos:
- import pandas as pd - Importa pandas con alias pd (pr√°ctica est√°ndar)
- pd.read_csv() - Carga archivos CSV en formato DataFrame

### M√©todos de conteo:
- .count() - Cuenta valores no nulos en una columna o DataFrame
- .value_counts() - Cuenta frecuencia de valores √∫nicos
- .nunique() - Cuenta valores √∫nicos en una columna

### M√©todos de suma:
- .sum() - Suma todos los valores num√©ricos de una columna
- .cumsum() - Suma acumulativa de valores

### M√©todos estad√≠sticos b√°sicos:
- .mean() - Calcula el promedio aritm√©tico
- .median() - Calcula la mediana
- .mode() - Encuentra el valor m√°s frecuente

### M√©todos de valores extremos:
- .min() - Encuentra el valor m√≠nimo
- .max() - Encuentra el valor m√°ximo
- .idxmin() - Encuentra el √≠ndice del valor m√≠nimo
- .idxmax() - Encuentra el √≠ndice del valor m√°ximo

### M√©todos de agregaci√≥n m√∫ltiple:
- .describe() - Genera estad√≠sticas descriptivas completas
- .agg() - Aplica m√∫ltiples funciones de agregaci√≥n

### Funci√≥n de salida:
- print() - Muestra los resultados de los c√°lculos


In [None]:
# Ejemplos de uso mostrados:

# Conteo b√°sico:
import pandas as pd

df = pd.read_csv('/datasets/music_log.csv')

# Contar valores no nulos
total_registros = df['user_id'].count()
print(total_registros)

# Suma de valores:
# Sumar valores num√©ricos
total_reproducciones = df['total_play'].sum()
print(total_reproducciones)

# C√°lculo de promedio:

# Calcular promedio
promedio_reproducciones = df['total_play'].mean()
print(promedio_reproducciones)

# Valores extremos:

# Encontrar valores m√≠nimo y m√°ximo
min_reproducciones = df['total_play'].min()
max_reproducciones = df['total_play'].max()
print(f"M√≠nimo: {min_reproducciones}, M√°ximo: {max_reproducciones}")

# Estad√≠sticas descriptivas completas:
# Resumen estad√≠stico completo
estadisticas = df['total_play'].describe()
print(estadisticas)

# Conteo de valores √∫nicos:
# Contar g√©neros √∫nicos
generos_unicos = df['genre'].nunique()
print(f"G√©neros √∫nicos: {generos_unicos}")

# Frecuencia de cada g√©nero
frecuencia_generos = df['genre'].value_counts()
print(frecuencia_generos)

# Filtrado combinado con agregaci√≥n:
# Promedio de reproducciones por g√©nero espec√≠fico
jazz_promedio = df[df['genre'] == 'jazz']['total_play'].mean()
rock_total = df[df['genre'] == 'rock']['total_play'].sum()

print(f"Promedio jazz: {jazz_promedio}")
print(f"Total rock: {rock_total}")

### Conceptos clave cubiertos:
- M√©todos de agregaci√≥n
- Funciones estad√≠sticas que resumen grandes conjuntos de datos en valores √∫nicos representativos
- Funci√≥n count()
- M√©todo que cuenta elementos no nulos, √∫til para determinar la completitud de los datos
- Funci√≥n sum()
- Herramienta para calcular totales num√©ricos, esencial para an√°lisis de vol√∫menes y cantidades
- Estad√≠sticas descriptivas
- Conjunto de medidas (media, mediana, m√≠nimo, m√°ximo) que caracterizan la distribuci√≥n de los datos
- Valores extremos
- Identificaci√≥n de m√≠nimos y m√°ximos que pueden revelar outliers o rangos de datos importantes
- Agregaci√≥n condicional
- Combinaci√≥n de filtrado con m√©todos estad√≠sticos para obtener insights espec√≠ficos de subgrupos
- An√°lisis exploratorio
- Uso de m√©todos de agregaci√≥n para comprender r√°pidamente las caracter√≠sticas principales de un dataset
- M√©todos auxiliares
- Funciones especializadas como .describe(), .value_counts() y .nunique() que facilitan el an√°lisis inicial
- Interpretaci√≥n de resultados
- Capacidad de extraer conclusiones significativas de los valores estad√≠sticos calculados

## ü§î Pregunta para reflexionar:
¬øC√≥mo pueden los m√©todos de agregaci√≥n como count(), sum() y mean() ayudarte a identificar patrones y tendencias en datos musicales que no ser√≠an evidentes al examinar filas individuales, y qu√© tipo de decisiones de negocio podr√≠as tomar bas√°ndote en estos insights agregados?


# üìñ Resumen del cap√≠tulo: Solucionar problemas con archivos CSV
Este cap√≠tulo aborda los problemas m√°s comunes al trabajar con archivos CSV y las t√©cnicas para resolverlos usando pandas. Se enfoca en:

- Identificaci√≥n de problemas comunes en CSV
    - Reconocer errores t√≠picos como separadores incorrectos, codificaci√≥n de caracteres, y encabezados mal formateados
- Manejo de separadores personalizados
    - Dominar el uso del par√°metro sep para trabajar con archivos que usan delimitadores diferentes a la coma
- Gesti√≥n de encabezados
    - Controlar c√≥mo pandas interpreta las primeras filas usando los par√°metros header y names
- Codificaci√≥n de caracteres
    - Resolver problemas de caracteres especiales y acentos usando el par√°metro encoding
- Tratamiento de valores faltantes
    - Manejar celdas vac√≠as y valores nulos usando par√°metros como na_values y keep_default_na
- Especificaci√≥n de tipos de datos
    - Controlar c√≥mo pandas interpreta las columnas usando el par√°metro dtype

# üìã Listado completo de comandos utilizados:
### Importaci√≥n y carga b√°sica:
- import pandas as pd - Importa pandas con alias pd
- pd.read_csv() - Funci√≥n principal para leer archivos CSV

### Par√°metros para separadores:
- sep=',' - Especifica coma como separador (por defecto)
- sep=';' - Especifica punto y coma como separador
- sep='\t' - Especifica tabulaci√≥n como separador
- delimiter= - Alternativa a sep para especificar delimitador

### Par√°metros para encabezados:
- header=0 - Primera fila como encabezado (por defecto)
- header=None - Sin encabezados en el archivo
- names=['col1', 'col2'] - Asigna nombres personalizados a columnas
- skiprows=n - Omite las primeras n filas

### Par√°metros para codificaci√≥n:
- encoding='utf-8' - Codificaci√≥n UTF-8 (recomendada)
- encoding='latin-1' - Codificaci√≥n Latin-1 para caracteres especiales
- encoding='cp1252' - Codificaci√≥n Windows

### Par√°metros para valores faltantes:
- na_values=['', 'NULL', 'N/A'] - Define valores que se interpretan como NaN
- keep_default_na=True - Mantiene valores NaN por defecto
- na_filter=False - Desactiva detecci√≥n autom√°tica de valores nulos

### Par√°metros para tipos de datos:
- dtype={'columna': 'str'} - Especifica tipo string para una columna
- dtype={'columna': 'int64'} - Especifica tipo entero
- dtype={'columna': 'float64'} - Especifica tipo decimal

### Funciones de diagn√≥stico:
- .info() - Muestra informaci√≥n sobre el DataFrame
- .head() - Muestra las primeras filas
- .dtypes - Muestra tipos de datos de las columnas


In [None]:
# Ejemplos de uso mostrados:

# Problema con separadores:
import pandas as pd

# Archivo con punto y coma como separador
df = pd.read_csv('/datasets/datos.csv', sep=';')
print(df.head())

# Problema con codificaci√≥n:
# Archivo con caracteres especiales
df = pd.read_csv('/datasets/datos.csv', encoding='latin-1')
print(df.head())

# Problema con encabezados:
# Archivo sin encabezados
df = pd.read_csv('/datasets/datos.csv', 
                 header=None, 
                 names=['nombre', 'edad', 'ciudad'])
print(df.info())

# Problema con valores faltantes:
# Definir valores personalizados como NaN
df = pd.read_csv('/datasets/datos.csv', 
                 na_values=['', 'NULL', 'N/A', 'missing'])
print(df.isnull().sum())

# Problema con tipos de datos:
# Forzar tipos de datos espec√≠ficos
df = pd.read_csv('/datasets/datos.csv', 
                 dtype={'id': 'str', 'precio': 'float64'})
print(df.dtypes)

# Combinaci√≥n de m√∫ltiples par√°metros:
# Soluci√≥n completa para archivo problem√°tico
df = pd.read_csv('/datasets/datos_problematicos.csv',
                 sep=';',
                 encoding='utf-8',
                 header=0,
                 na_values=['', 'NULL', 'N/A'],
                 dtype={'codigo': 'str'})
print(df.head())
print(df.info())

### Conceptos clave cubiertos:
- Separadores personalizados
- Diferentes caracteres delimitadores (coma, punto y coma, tabulaci√≥n) que pueden usarse para separar columnas en archivos CSV
- Codificaci√≥n de caracteres
- Sistemas de representaci√≥n de texto (UTF-8, Latin-1, CP1252) que determinan c√≥mo se interpretan caracteres especiales y acentos
- Gesti√≥n de encabezados
- Control sobre c√≥mo pandas identifica y asigna nombres a las columnas del DataFrame
- Valores faltantes personalizados
- Definici√≥n de cadenas espec√≠ficas que deben interpretarse como valores nulos o ausentes
- Tipos de datos expl√≠citos
- Especificaci√≥n manual del tipo de dato para cada columna para evitar interpretaciones incorrectas autom√°ticas
- Diagn√≥stico de problemas
- T√©cnicas para identificar y analizar errores en la carga de datos usando m√©todos como .info() y .head()
- Par√°metros de pd.read_csv()
- Conjunto completo de argumentos disponibles para personalizar la lectura de archivos CSV seg√∫n necesidades espec√≠ficas
- Troubleshooting sistem√°tico
- Metodolog√≠a paso a paso para identificar y resolver problemas comunes en archivos CSV
- Validaci√≥n de datos
- Verificaci√≥n de que los datos se han cargado correctamente despu√©s de aplicar las correcciones

## ü§î Pregunta para reflexionar:
¬øPor qu√© es crucial identificar y resolver problemas de formato en archivos CSV antes de comenzar cualquier an√°lisis de datos, y c√≥mo puede un archivo mal cargado afectar la validez de tus conclusiones y decisiones basadas en datos?


# üìñ Resumen del cap√≠tulo: C√≥mo leer archivos Excel
Este cap√≠tulo introduce las t√©cnicas para trabajar con archivos Excel usando pandas, abordando las particularidades de este formato de datos. Se enfoca en:

- Comprensi√≥n del formato Excel
    - Entender las diferencias entre archivos Excel (.xlsx, .xls) y CSV, incluyendo hojas m√∫ltiples y formato complejo
- Funci√≥n pd.read_excel()
    - Dominar la funci√≥n principal para cargar archivos Excel en DataFrames de pandas
- Manejo de hojas m√∫ltiples
    - Controlar qu√© hoja espec√≠fica cargar usando el par√°metro sheet_name y trabajar con libros de m√∫ltiples hojas
- Gesti√≥n de rangos de celdas
    - Especificar rangos espec√≠ficos de datos usando par√°metros como usecols y skiprows
- Tratamiento de encabezados en Excel
    - Manejar encabezados complejos y filas de t√≠tulo que son comunes en archivos Excel
- Instalaci√≥n de dependencias
    - Configurar las librer√≠as necesarias (openpyxl, xlrd) para leer diferentes versiones de Excel

# üìã Listado completo de comandos utilizados:
### Importaci√≥n y carga b√°sica:
- import pandas as pd - Importa pandas con alias pd
- pd.read_excel() - Funci√≥n principal para leer archivos Excel

### Par√°metros para archivos y hojas:
- sheet_name=0 - Lee la primera hoja (por defecto)
- sheet_name='Hoja1' - Lee hoja por nombre espec√≠fico
- sheet_name=None - Lee todas las hojas en un diccionario
- sheet_name=[0, 1] - Lee m√∫ltiples hojas espec√≠ficas

### Par√°metros para rangos de datos:
- usecols='A:C' - Especifica columnas por rango de letras
- usecols=[0, 1, 2] - Especifica columnas por n√∫meros de √≠ndice
- usecols=['nombre', 'edad'] - Especifica columnas por nombres
- skiprows=n - Omite las primeras n filas

### Par√°metros para encabezados:
- header=0 - Primera fila como encabezado (por defecto)
- header=None - Sin encabezados en el archivo
- names=['col1', 'col2'] - Asigna nombres personalizados a columnas

### Par√°metros para valores faltantes:
- na_values=['', 'NULL', 'N/A'] - Define valores que se interpretan como NaN
- keep_default_na=True - Mantiene valores NaN por defecto

### Par√°metros para tipos de datos:
- dtype={'columna': 'str'} - Especifica tipo de dato para columnas
- converters={'col': funci√≥n} - Aplica funci√≥n personalizada a columna

### Funciones de diagn√≥stico:
- .info() - Muestra informaci√≥n sobre el DataFrame
- .head() - Muestra las primeras filas
- .sheet_names - Lista nombres de hojas disponibles (para ExcelFile)

In [None]:
# Ejemplos de uso mostrados:
# Carga b√°sica de Excel:
import pandas as pd

# Cargar archivo Excel b√°sico
df = pd.read_excel('/datasets/ventas.xlsx')
print(df.head())

# Especificar hoja por nombre:
# Cargar hoja espec√≠fica por nombre
df = pd.read_excel('/datasets/ventas.xlsx', sheet_name='Enero')
print(df.info())

# Cargar m√∫ltiples hojas:
# Cargar todas las hojas
todas_hojas = pd.read_excel('/datasets/ventas.xlsx', sheet_name=None)
print(todas_hojas.keys())

# Cargar hojas espec√≠ficas
hojas_seleccionadas = pd.read_excel('/datasets/ventas.xlsx', 
                                   sheet_name=['Enero', 'Febrero'])
print(hojas_seleccionadas['Enero'].head())

# Especificar rangos de columnas:
# Cargar solo columnas espec√≠ficas
df = pd.read_excel('/datasets/ventas.xlsx', 
                   usecols='A:D')  # Columnas A hasta D
print(df.head())

# Cargar columnas por nombre
df = pd.read_excel('/datasets/ventas.xlsx', 
                   usecols=['producto', 'precio', 'cantidad'])
print(df.head())

# Manejar filas de encabezado complejas:
# Omitir filas de t√≠tulo y usar fila espec√≠fica como encabezado
df = pd.read_excel('/datasets/reporte.xlsx', 
                   skiprows=3, 
                   header=0)
print(df.head())

# Trabajar con ExcelFile para m√∫ltiples operaciones:
# Usar ExcelFile para operaciones m√∫ltiples
excel_file = pd.ExcelFile('/datasets/ventas.xlsx')
print(excel_file.sheet_names)

# Cargar hojas individualmente
enero = excel_file.parse('Enero')
febrero = excel_file.parse('Febrero', usecols=['producto', 'ventas'])
print(enero.head())

# Combinaci√≥n de par√°metros avanzados:
# Configuraci√≥n completa para archivo Excel complejo
df = pd.read_excel('/datasets/datos_complejos.xlsx',
                   sheet_name='Datos',
                   skiprows=2,
                   usecols='B:F',
                   header=0,
                   na_values=['', 'N/A', 'NULL'],
                   dtype={'codigo': 'str'})
print(df.info())
print(df.head())

### Conceptos clave cubiertos:
- Formato Excel vs CSV
- Diferencias fundamentales entre archivos Excel (formato binario con m√∫ltiples hojas) y CSV (texto plano con una sola tabla)
- Funci√≥n pd.read_excel()
- Herramienta principal de pandas para cargar archivos Excel con capacidades avanzadas de configuraci√≥n
- Hojas m√∫ltiples (worksheets)
- Capacidad de los archivos Excel para contener m√∫ltiples tablas de datos en un solo archivo
- Par√°metro sheet_name
- Control espec√≠fico sobre qu√© hoja o hojas cargar del archivo Excel
- Rangos de celdas
- Especificaci√≥n de √°reas espec√≠ficas del archivo Excel usando notaci√≥n de columnas (A:C) o √≠ndices num√©ricos
- ExcelFile object
- Objeto especializado para trabajar eficientemente con archivos Excel que requieren m√∫ltiples operaciones de lectura
- Dependencias externas
- Librer√≠as adicionales (openpyxl, xlrd) necesarias para leer diferentes versiones de archivos Excel
- Encabezados complejos
- Manejo de estructuras de encabezado t√≠picas de Excel como t√≠tulos, subt√≠tulos y filas de metadatos
- Optimizaci√≥n de memoria
- T√©cnicas para cargar solo los datos necesarios usando usecols y skiprows para archivos Excel grandes

## ü§î Pregunta para reflexionar:
¬øEn qu√© situaciones ser√≠a m√°s ventajoso usar archivos Excel en lugar de CSV para almacenar y compartir datos, y c√≥mo pueden las caracter√≠sticas √∫nicas de Excel (como m√∫ltiples hojas y formato complejo) tanto beneficiar como complicar el proceso de an√°lisis de datos?

# üìñ Resumen del cap√≠tulo: Observaci√≥n de los datos
Este cap√≠tulo introduce la observaci√≥n de datos, una t√©cnica fundamental para obtener una comprensi√≥n inicial de datasets antes de realizar an√°lisis m√°s profundos. Se enfoca en:

- An√°lisis estad√≠stico descriptivo
    - Obtener res√∫menes estad√≠sticos completos de columnas num√©ricas usando el m√©todo describe()
- Comprensi√≥n de distribuciones de datos
    - Identificar medidas de tendencia central, dispersi√≥n y valores extremos en el dataset
- Evaluaci√≥n de calidad de datos
    - Detectar valores nulos y comprender la estructura general del conjunto de datos
- Interpretaci√≥n de estad√≠sticas b√°sicas
    - Analizar count, mean, std, min, max y cuartiles para comprender el comportamiento de los datos
- Diferenciaci√≥n entre tipos de datos
    - Distinguir entre el tratamiento estad√≠stico de columnas num√©ricas y categ√≥ricas
- Preparaci√≥n para an√°lisis posteriores
    - Establecer una base s√≥lida de conocimiento sobre el dataset antes de aplicar t√©cnicas m√°s avanzadas

# üìã Listado completo de comandos utilizados:
### Importaci√≥n de librer√≠as:
- import pandas as pd - Importa la librer√≠a pandas para manipulaci√≥n de datos

### M√©todo principal de observaci√≥n:
- .describe() - Genera estad√≠sticas descriptivas para columnas num√©ricas y categ√≥ricas

### Configuraci√≥n de lectura de datos:
- pd.read_csv() - Lee archivos CSV con configuraciones espec√≠ficas
- sep='|' - Especifica el separador de columnas
- header=None - Indica que no hay encabezados en el archivo
- names=[] - Asigna nombres personalizados a las columnas
- decimal=',' - Define el separador decimal

### Funci√≥n de salida:
- print() - Muestra los resultados estad√≠sticos en pantalla

In [None]:
# Ejemplos de uso mostrados:

# Configuraci√≥n de nombres de columnas:
column_names = [
    'country',
    'name', 
    'capacity_mw',
    'latitude',
    'longitude',
    'primary_fuel',
    'owner'
]

# Lectura de datos con configuraci√≥n espec√≠fica:
data = pd.read_csv(
    '/datasets/gpp_modified.csv',
    sep='|',
    header=None,
    names=column_names,
    decimal=',',
)

# Aplicaci√≥n del m√©todo describe():
print(data.describe())

### Conceptos clave cubiertos:
- Estad√≠sticas descriptivas - Conjunto de medidas que resumen las caracter√≠sticas principales de un dataset
- Count - N√∫mero de valores no nulos en cada columna
- Mean - Media aritm√©tica de los valores num√©ricos
- Std - Desviaci√≥n est√°ndar que mide la dispersi√≥n de los datos
- Min/Max - Valores m√≠nimo y m√°ximo en cada columna
- Cuartiles (25%, 50%, 75%) - Valores que dividen los datos en cuatro partes iguales
- Unique - N√∫mero de valores √∫nicos en columnas categ√≥ricas
- Top - Valor m√°s frecuente en columnas categ√≥ricas
- Freq - Frecuencia del valor m√°s com√∫n en columnas categ√≥ricas

## ü§î Pregunta para reflexionar:
¬øC√≥mo crees que el dominio de la observaci√≥n de datos te ayudar√° a identificar patrones y problemas potenciales en tus futuros an√°lisis de datos?

# üìñ Resumen del cap√≠tulo: Descripciones num√©ricas y describe()
Este cap√≠tulo introduce las descripciones num√©ricas utilizando el m√©todo describe(), una t√©cnica fundamental para obtener res√∫menes estad√≠sticos detallados de datasets. Se enfoca en:

- An√°lisis estad√≠stico preliminar
    - Computar una vista preliminar descriptiva para cada columna num√©rica del dataset de manera autom√°tica
- Comprensi√≥n de medidas estad√≠sticas b√°sicas
    - Interpretar estad√≠sticas como count, mean, std, min, max y cuartiles para entender la distribuci√≥n de datos
- Evaluaci√≥n de tendencia central y dispersi√≥n
    - Analizar la media aritm√©tica y desviaci√≥n est√°ndar para comprender el comportamiento t√≠pico de los datos
- Identificaci√≥n de valores extremos
    - Detectar valores m√≠nimos y m√°ximos que pueden indicar outliers o rangos de datos
- An√°lisis de distribuci√≥n por cuartiles
    - Utilizar percentiles (25%, 50%, 75%) para entender c√≥mo se distribuyen los valores en el dataset
- Exclusi√≥n autom√°tica de valores nulos
    - Comprender que todas las estad√≠sticas se calculan √∫nicamente sobre datos no nulos de cada columna

# üìã Listado completo de comandos utilizados:
### Importaci√≥n de librer√≠as:
- import pandas as pd - Importa la librer√≠a pandas para manipulaci√≥n de datos

### M√©todo principal de descripci√≥n estad√≠stica:
- .describe() - Genera resumen estad√≠stico detallado para columnas num√©ricas del DataFrame

### Configuraci√≥n de lectura de datos:
- pd.read_csv() - Lee archivos CSV con configuraciones espec√≠ficas
- sep='|' - Especifica el separador de columnas como pipe
- header=None - Indica ausencia de encabezados en el archivo original
- names=[] - Asigna nombres personalizados a las columnas del DataFrame
- decimal=',' - Define la coma como separador decimal

### Funci√≥n de salida:
- print() - Muestra el resumen estad√≠stico en pantalla

In [None]:
# Ejemplos de uso mostrados:

# Configuraci√≥n de nombres de columnas:
column_names = [
    'country',
    'name',
    'capacity_mw',
    'latitude',
    'longitude',
    'primary_fuel',
    'owner'
]

# Lectura de datos con configuraci√≥n espec√≠fica:
data = pd.read_csv(
    '/datasets/gpp_modified.csv',
    sep='|',
    header=None,
    names=column_names,
    decimal=',',
)

# Aplicaci√≥n del m√©todo describe():
print(data.describe())

### Conceptos clave cubiertos:
- Count - N√∫mero de observaciones no nulas en cada columna num√©rica
- Mean - Media aritm√©tica que representa el valor promedio de los datos
- Std - Desviaci√≥n est√°ndar que mide la dispersi√≥n de los datos respecto a la media
- Min - Valor m√≠nimo encontrado en cada columna num√©rica
- 25% (Primer cuartil) - Valor por debajo del cual se encuentra el 25% de los datos
- 50% (Mediana) - Valor central que divide los datos en dos mitades iguales
- 75% (Tercer cuartil) - Valor por debajo del cual se encuentra el 75% de los datos
- Max - Valor m√°ximo encontrado en cada columna num√©rica
- Exclusi√≥n autom√°tica de nulos - Todas las estad√≠sticas se calculan √∫nicamente sobre valores no nulos

## ü§î Pregunta para reflexionar:
¬øC√≥mo crees que el dominio del m√©todo describe() te ayudar√° a identificar patrones, outliers y caracter√≠sticas importantes de tus datos antes de realizar an√°lisis m√°s profundos?

# üìñ Resumen del cap√≠tulo: Problemas con los datos: entra basura, sale basura
Este cap√≠tulo introduce la identificaci√≥n y correcci√≥n de problemas comunes en los datos, una t√©cnica fundamental para garantizar la calidad de los datos antes del an√°lisis. Se enfoca en:

- Principio "Garbage In, Garbage Out" (GIGO)
    - Comprender que datos de mala calidad producen an√°lisis y conclusiones no confiables
- Identificaci√≥n de problemas estructurales
    - Detectar errores en el nombramiento de columnas que pueden causar dificultades en el an√°lisis
- Correcci√≥n de nombres de columnas
    - Aplicar buenas pr√°cticas de nomenclatura usando snake_case y nombres descriptivos
- Uso del m√©todo info() para diagn√≥stico
    - Obtener una vista general del dataset incluyendo nombres de columnas, tipos de datos y valores no nulos
- Renombramiento manual de columnas
    - Utilizar el m√©todo rename() con diccionarios para cambiar nombres espec√≠ficos de columnas
- Automatizaci√≥n del proceso de limpieza
    - Implementar bucles y m√©todos de string para corregir m√∫ltiples columnas de manera eficiente

# üìã Listado completo de comandos utilizados:
### Importaci√≥n de librer√≠as:
- import pandas as pd - Importa la librer√≠a pandas para manipulaci√≥n de datos

### M√©todos de diagn√≥stico:
- .info() - Muestra informaci√≥n general sobre el DataFrame incluyendo nombres de columnas
- .columns - Atributo que muestra √∫nicamente los nombres de las columnas

### Creaci√≥n de DataFrames:
- pd.DataFrame() - Crea un DataFrame a partir de datos y nombres de columnas
- data= - Par√°metro para especificar los datos del DataFrame
- columns= - Par√°metro para especificar los nombres de las columnas

### M√©todo de renombramiento:
- .rename() - Cambia los nombres de las columnas usando un diccionario
- columns= - Par√°metro que recibe el diccionario con nombres antiguos y nuevos
- inplace=True - Par√°metro que aplica cambios directamente sin reasignaci√≥n

### M√©todos de string para limpieza:
- .strip() - Elimina espacios al principio y al final de los nombres
- .lower() - Convierte todos los caracteres a min√∫sculas
- .replace() - Reemplaza espacios entre palabras por guiones bajos

### Estructuras de control:
- for - Itera sobre los nombres de columnas para procesamiento autom√°tico
- .append() - Agrega elementos procesados a una nueva lista

### Funci√≥n de salida:
- print() - Muestra informaci√≥n sobre columnas y resultados

In [None]:
# Ejemplos mostrados:

# Ejemplo 1: Renombrar columnas con el m√©todo rename()

# Renombrar columnas espec√≠ficas
df = df.rename(columns={'old_name': 'new_name', 'User ID': 'user_id'})

# Renombrar todas las columnas usando un bucle
new_col_names = []
for col in df.columns:
    new_name = col.strip().lower().replace(' ', '_')
    new_col_names.append(new_name)
df.columns = new_col_names

# Ejemplo 2: Limpieza de nombres de columnas paso a paso

# Dataset music_log_raw.csv
import pandas as pd
df = pd.read_csv('/datasets/music_log_raw.csv')

new_col_names = []
for col in df.columns:
    # 1. Eliminar espacios al inicio y final
    clean_name = col.strip()
    # 2. Convertir a min√∫sculas
    clean_name = clean_name.lower()
    # 3. Reemplazar espacios internos con guiones bajos
    clean_name = clean_name.replace(' ', '_')
    new_col_names.append(clean_name)

# Asignar los nuevos nombres
df.columns = new_col_names
print(df.columns)

### Conceptos cubiertos:
- Errores estructurales vs errores de contenido en datasets
- Problemas comunes en nombres de columnas:
- Espacios en blanco al inicio/final
- Espacios internos en nombres
- Inconsistencia en may√∫sculas/min√∫sculas
- Falta de claridad en la denominaci√≥n
- M√©todo .rename() para cambiar nombres espec√≠ficos de columnas
- Convenci√≥n snake_case para nombrar columnas y variables
- M√©todos de string: .strip(), .lower(), .replace()
- Atributo .columns para acceder y modificar nombres de columnas

## ü§î Pregunta para reflexionar:
¬øPor qu√© es importante estandarizar los nombres de las columnas antes de comenzar el an√°lisis de datos? Piensa en al menos tres problemas espec√≠ficos que podr√≠an surgir si trabajas con nombres de columnas inconsistentes o mal formateados.


# üìñ Resumen del cap√≠tulo: Renombrar columnas
Este cap√≠tulo introduce el renombramiento de columnas, una t√©cnica fundamental para corregir problemas estructurales en los nombres de columnas de datasets. Se enfoca en:

- Identificaci√≥n de errores estructurales en nombres
    - Detectar problemas comunes como espacios en nombres de columnas y falta de claridad en la denominaci√≥n
- Aplicaci√≥n de convenciones de nomenclatura
    - Implementar snake_case como est√°ndar para nombrar columnas y variables de manera consistente
- Uso del m√©todo rename() para correcciones
    - Aplicar el m√©todo rename() de pandas para cambiar nombres espec√≠ficos de columnas de manera eficiente
- Automatizaci√≥n del proceso de limpieza
    - Crear bucles personalizados para procesar m√∫ltiples nombres de columnas de manera sistem√°tica
- Mejora de la legibilidad del c√≥digo
    - Transformar nombres confusos o problem√°ticos en nombres claros y descriptivos que faciliten el trabajo posterior
- Preparaci√≥n para an√°lisis posteriores
    - Establecer una base s√≥lida con nombres de columnas consistentes antes de proceder con el an√°lisis de datos

# üìã Listado completo de comandos utilizados:
### Importaci√≥n de librer√≠as:
- import pandas as pd - Importa la librer√≠a pandas para manipulaci√≥n de datos

### M√©todo principal de renombramiento:
- .rename() - Cambia los nombres de las columnas usando un diccionario de mapeo
- columns= - Par√°metro que especifica el diccionario con nombres antiguos y nuevos
- inplace=True - Par√°metro opcional que aplica cambios directamente al DataFrame

### Acceso y modificaci√≥n de nombres de columnas:
- .columns - Atributo que permite acceder y modificar los nombres de las columnas
- .columns = new_list - Asigna una nueva lista de nombres a las columnas

### M√©todos de procesamiento de strings:
- .strip() - Elimina espacios en blanco al principio y al final de los nombres
- .lower() - Convierte todos los caracteres a min√∫sculas
- .replace() - Reemplaza caracteres espec√≠ficos (como espacios por guiones bajos)

### Estructuras de control para automatizaci√≥n:
- for - Itera sobre los nombres de columnas existentes
- .append() - Agrega nombres procesados a una nueva lista

### Funci√≥n de salida:
- print() - Muestra los nombres de columnas antes y despu√©s de la transformaci√≥n

In [None]:
# Ejemplos de uso mostrados:

# Renombramiento autom√°tico con bucle personalizado:
new_col_names = []
for old_name in celestial.columns:
    # Primero, elimina los espacios al principio y al final
    name_stripped = old_name.strip()
    # Luego, pon todas las letras en min√∫sculas
    name_lowered = name_stripped.lower()
    # Por √∫ltimo, reemplaza los espacios entre palabras por guiones bajos
    name_no_spaces = name_lowered.replace(' ', '_')
    # Agrega el nuevo nombre a la lista de nuevos nombres de columna
    new_col_names.append(name_no_spaces)

# Reemplaza los nombres anteriores por los nuevos

celestial.columns = new_col_names
# Renombramiento usando el m√©todo rename():
df = df.rename(columns={
    'Old Column Name': 'new_column_name',
    'Another Old Name': 'another_new_name'
}, inplace=True)

### Conceptos clave cubiertos:
- Identificaci√≥n de valores ausentes: Uso de isna() y isnull() para detectar valores faltantes en datasets
- Tipos de valores ausentes: Diferencia entre formas esperadas (None, NaN) e inesperadas (0, '?', 'NN', 'n/a')
- Estrategias de procesamiento: Eliminaci√≥n vs. sustituci√≥n de valores ausentes seg√∫n el contexto
- M√©todo fillna(): Reemplazo de valores ausentes con valores espec√≠ficos (ej: ceros)
- M√©todo dropna(): Eliminaci√≥n de filas o columnas con valores ausentes usando par√°metros subset= y axis=
- M√©todo drop(): Control espec√≠fico para eliminar columnas particulares
- Par√°metro inplace=: Modificaci√≥n directa del DataFrame sin reasignaci√≥n
- An√°lisis contextual: Importancia de entender el origen de los valores ausentes antes de procesarlos

## ü§î Pregunta para reflexionar:
¬øC√≥mo determinar√≠as si es mejor eliminar o reemplazar valores ausentes en una columna espec√≠fica de tu dataset, y qu√© factores considerar√≠as para tomar esta decisi√≥n?


# üìñ Resumen del cap√≠tulo: Procesar valores ausentes
Este cap√≠tulo introduce el procesamiento de valores ausentes, una t√©cnica fundamental para manejar datos faltantes en datasets y garantizar la calidad del an√°lisis. Se enfoca en:

- Identificaci√≥n de valores ausentes
- Detectar valores faltantes utilizando m√©todos espec√≠ficos para reconocer diferentes tipos de ausencias en los datos
- Comprensi√≥n de tipos de valores ausentes
- Distinguir entre valores ausentes esperados (NaN, None) e inesperados ('n/a', '?', 0) seg√∫n el contexto
- Estrategias de eliminaci√≥n de datos faltantes
- Aplicar m√©todos para remover filas o columnas con valores ausentes cuando sea apropiado para el an√°lisis
- T√©cnicas de sustituci√≥n de valores
- Reemplazar valores ausentes con valores espec√≠ficos como ceros, promedios o valores por defecto
- An√°lisis contextual de ausencias
- Evaluar el significado y origen de los valores ausentes para tomar decisiones informadas sobre su tratamiento
- Preservaci√≥n de la integridad del dataset
- Mantener la estructura y calidad de los datos mientras se procesan las ausencias de manera eficiente

# üìã Listado completo de comandos utilizados:
### Importaci√≥n de librer√≠as:
- import pandas as pd - Importa la librer√≠a pandas para manipulaci√≥n de datos

### M√©todos de identificaci√≥n de valores ausentes:
- .isna() - Identifica valores ausentes devolviendo True/False para cada celda
- .isnull() - M√©todo alternativo para identificar valores ausentes (equivalente a isna())
- .sum() - Cuenta el n√∫mero total de valores ausentes cuando se combina con isna()

### M√©todos de eliminaci√≥n de valores ausentes:
- .dropna() - Elimina filas o columnas que contienen valores ausentes
- subset= - Par√°metro que especifica columnas espec√≠ficas para evaluar ausencias
- axis= - Par√°metro que define si eliminar filas (0) o columnas (1)
- .drop() - Elimina columnas espec√≠ficas del DataFrame

### M√©todos de sustituci√≥n de valores ausentes:
- .fillna() - Reemplaza valores ausentes con un valor espec√≠fico
- value= - Par√°metro que especifica el valor de reemplazo
- inplace=True - Par√°metro que aplica cambios directamente al DataFrame

### Configuraci√≥n de lectura de datos:
- pd.read_csv() - Lee archivos CSV con configuraciones espec√≠ficas
- na_values= - Especifica valores adicionales que deben tratarse como ausentes

### Funci√≥n de salida:
- print() - Muestra informaci√≥n sobre valores ausentes y resultados del procesamiento

In [None]:
# Ejemplos de uso mostrados:

# Identificaci√≥n de valores ausentes:
print(df.isna().sum())
print(df.isnull().sum())

# Eliminaci√≥n de filas con valores ausentes en columnas espec√≠ficas:
df_clean = df.dropna(subset=['track', 'artist', 'genre'])

# Eliminaci√≥n de columnas con valores ausentes:
df_no_missing_cols = df.dropna(axis=1)

# Sustituci√≥n de valores ausentes con ceros:
df['plays'] = df['plays'].fillna(0)

# Sustituci√≥n con fillna usando inplace:
df.fillna(0, inplace=True)

# Lectura de CSV especificando valores ausentes adicionales:
df = pd.read_csv('/datasets/music_log_upd.csv', na_values=['n/a', 'unknown'])

### Conceptos clave cubiertos:
- Valores ausentes esperados - NaN, None y otros valores reconocidos autom√°ticamente por pandas
- Valores ausentes inesperados - Strings como 'n/a', '?', 'unknown' que requieren configuraci√≥n espec√≠fica
- Par√°metro subset - Permite especificar columnas espec√≠ficas para evaluar la eliminaci√≥n de filas
- Par√°metro axis - Controla si se eliminan filas (axis=0) o columnas (axis=1)
- Par√°metro na_values - Define valores adicionales que deben tratarse como ausentes durante la lectura
- Estrategia de eliminaci√≥n - Remover datos cuando los valores ausentes no aportan informaci√≥n √∫til
- Estrategia de sustituci√≥n - Reemplazar ausencias con valores que mantengan la integridad del an√°lisis
- An√°lisis de impacto - Evaluar c√≥mo afecta la eliminaci√≥n o sustituci√≥n al tama√±o y representatividad del dataset
- Modificaci√≥n inplace - Aplicar cambios directamente al DataFrame original sin crear copias

## ü§î Pregunta para reflexionar:
¬øC√≥mo determinar√≠as si es mejor eliminar o reemplazar valores ausentes en una columna espec√≠fica de tu dataset, y qu√© factores considerar√≠as para tomar esta decisi√≥n informada sobre el tratamiento m√°s apropiado?

# üìñ Resumen del cap√≠tulo: Procesamiento de valores duplicados
Este cap√≠tulo introduce el procesamiento de valores duplicados, una t√©cnica fundamental para identificar y manejar registros repetidos en datasets y garantizar la calidad del an√°lisis. Se enfoca en:

- Identificaci√≥n de registros duplicados
    - Detectar filas completamente id√©nticas o duplicadas en columnas espec√≠ficas utilizando m√©todos especializados
- Comprensi√≥n de tipos de duplicados
    - Distinguir entre duplicados completos (toda la fila) y duplicados parciales (columnas espec√≠ficas) seg√∫n el contexto del an√°lisis
- Estrategias de eliminaci√≥n de duplicados
    - Aplicar m√©todos para remover registros duplicados manteniendo solo la primera o √∫ltima ocurrencia seg√∫n sea necesario
- An√°lisis de impacto de duplicados
    - Evaluar c√≥mo los registros duplicados afectan la integridad y representatividad de los datos
- Preservaci√≥n de registros √∫nicos
    - Mantener solo los registros √∫nicos relevantes mientras se eliminan las copias innecesarias
- Control de criterios de duplicaci√≥n
    - Especificar qu√© columnas considerar para determinar si un registro es duplicado

# üìã Listado completo de comandos utilizados:
### Importaci√≥n de librer√≠as:
- import pandas as pd - Importa la librer√≠a pandas para manipulaci√≥n de datos

### Carga de datos:
- pd.read_csv() - Lee archivos CSV y carga los datos en un DataFrame

### M√©todos de identificaci√≥n de duplicados:
- .duplicated() - Identifica filas duplicadas devolviendo True/False para cada fila
- .duplicated().sum() - Cuenta el n√∫mero total de duplicados cuando se combina con duplicated()
- subset= - Par√°metro que especifica columnas espec√≠ficas para evaluar duplicaci√≥n

### M√©todos de eliminaci√≥n de duplicados:
- .drop_duplicates() - Elimina filas duplicadas del DataFrame
- .drop_duplicates(keep='first') - Elimina duplicados manteniendo la primera ocurrencia
- .drop_duplicates(keep='last') - Elimina duplicados manteniendo la √∫ltima ocurrencia
- .drop_duplicates(keep=False) - Elimina todas las ocurrencias de duplicados
- .drop_duplicates(subset=['columna']) - Elimina duplicados bas√°ndose en columnas espec√≠ficas
- inplace=True - Par√°metro que aplica cambios directamente al DataFrame

### M√©todos de reindexaci√≥n:
- .reset_index() - Reinicia los √≠ndices del DataFrame
- .reset_index(drop=True) - Reinicia los √≠ndices eliminando el √≠ndice anterior

### M√©todos de an√°lisis de valores √∫nicos:
- .unique() - Obtiene los valores √∫nicos de una columna espec√≠fica
- .nunique() - Cuenta el n√∫mero de valores √∫nicos en una columna

### M√©todos de informaci√≥n del DataFrame:
- .shape - Muestra las dimensiones del DataFrame (filas, columnas)
- .info() - Proporciona informaci√≥n general sobre el DataFrame

### Funci√≥n de salida:
- print() - Muestra informaci√≥n sobre duplicados y resultados del procesamiento

In [None]:
# Ejemplos de uso mostrados:

# Identificaci√≥n de duplicados completos:
print(df.duplicated().sum())

# Identificaci√≥n de duplicados en columnas espec√≠ficas:
print(df.duplicated(subset=['track', 'artist']).sum())

# Eliminaci√≥n de duplicados completos:
df_no_duplicates = df.drop_duplicates()

# Eliminaci√≥n de duplicados en columnas espec√≠ficas:
df_clean = df.drop_duplicates(subset=['track', 'artist'])

# Eliminaci√≥n manteniendo el √∫ltimo duplicado:
df_last = df.drop_duplicates(keep='last')

# Eliminaci√≥n usando inplace:
df.drop_duplicates(inplace=True)

# Verificaci√≥n del tama√±o antes y despu√©s:
print(f"Antes: {df.shape}")
df_clean = df.drop_duplicates()
print(f"Despu√©s: {df_clean.shape}")

### Conceptos clave cubiertos:
- Duplicados completos - Filas que son id√©nticas en todas sus columnas
- Duplicados parciales - Filas que son id√©nticas solo en columnas espec√≠ficas definidas por subset
- Par√°metro keep - Controla qu√© duplicado mantener: 'first' (primero), 'last' (√∫ltimo), False (eliminar todos)
- Par√°metro subset - Define qu√© columnas considerar para determinar duplicaci√≥n
- An√°lisis de impacto - Evaluar c√≥mo los duplicados afectan el tama√±o y representatividad del dataset
- Verificaci√≥n de duplicados - Usar duplicated() para identificar la presencia y cantidad de registros duplicados
- Estrategia de conservaci√≥n - Decidir qu√© instancia del duplicado mantener seg√∫n el contexto del an√°lisis
- Limpieza de datos - Proceso de eliminaci√≥n de duplicados como parte de la preparaci√≥n de datos
- Modificaci√≥n inplace - Aplicar cambios de eliminaci√≥n directamente al DataFrame original

## ü§î Pregunta para reflexionar:
¬øC√≥mo determinar√≠as qu√© columnas espec√≠ficas considerar al identificar duplicados en tu dataset, y cu√°ndo ser√≠a apropiado mantener el primer duplicado versus el √∫ltimo duplicado encontrado?

# üìñ Resumen del cap√≠tulo: Agrupaci√≥n de datos duplicados
Este cap√≠tulo introduce el procesamiento de datos duplicados, una t√©cnica esencial para identificar y manejar registros repetidos en datasets, garantizando la calidad y precisi√≥n del an√°lisis. Se enfoca en:

- Identificaci√≥n de datos duplicados
    - Detectar registros duplicados utilizando m√©todos espec√≠ficos para reconocer filas id√©nticas o parcialmente repetidas
- Comprensi√≥n de tipos de duplicados
    - Distinguir entre duplicados completos (filas id√©nticas) y duplicados parciales (basados en columnas espec√≠ficas)
- Estrategias de eliminaci√≥n de duplicados
    - Aplicar m√©todos para remover registros duplicados manteniendo solo las primeras o √∫ltimas ocurrencias
- T√©cnicas de agrupaci√≥n y agregaci√≥n
    - Agrupar datos duplicados y aplicar funciones de agregaci√≥n para consolidar informaci√≥n repetida
- An√°lisis contextual de duplicados
    - Evaluar el origen y significado de los duplicados para tomar decisiones informadas sobre su tratamiento
- Preservaci√≥n de la integridad del dataset
    - Mantener la estructura y calidad de los datos mientras se procesan los duplicados de manera eficiente

# üìã Listado completo de comandos utilizados:
### Importaci√≥n de librer√≠as:
- import pandas as pd - Importa la librer√≠a pandas para manipulaci√≥n de datos

### M√©todos de identificaci√≥n de duplicados:
- .duplicated() - Identifica filas duplicadas devolviendo True/False para cada fila
- .duplicated(subset=) - Identifica duplicados basados en columnas espec√≠ficas
- .duplicated(keep=) - Especifica qu√© duplicado mantener ('first', 'last', False)
- .sum() - Cuenta el n√∫mero total de duplicados cuando se combina con duplicated()

### M√©todos de eliminaci√≥n de duplicados:
- .drop_duplicates() - Elimina filas duplicadas del DataFrame
- subset= - Par√°metro que especifica columnas para evaluar duplicados
- keep= - Par√°metro que define qu√© duplicado mantener
- inplace=True - Par√°metro que aplica cambios directamente al DataFrame

### M√©todos de agrupaci√≥n y agregaci√≥n:
- .groupby() - Agrupa datos por una o m√°s columnas
- .agg() - Aplica funciones de agregaci√≥n a grupos de datos
- .size() - Cuenta el n√∫mero de elementos en cada grupo
- .count() - Cuenta valores no nulos en cada grupo
- .sum() - Suma valores num√©ricos en cada grupo
- .mean() - Calcula la media de valores num√©ricos en cada grupo

### Funci√≥n de salida:
- print() - Muestra informaci√≥n sobre duplicados y resultados del procesamiento

In [None]:
# Ejemplos de uso mostrados:

# Identificaci√≥n de duplicados:
print(df.duplicated().sum())
print(df.duplicated(subset=['track', 'artist']).sum())

# Eliminaci√≥n de duplicados completos:
df_no_duplicates = df.drop_duplicates()

# Eliminaci√≥n de duplicados basados en columnas espec√≠ficas:
df_unique = df.drop_duplicates(subset=['track', 'artist'], keep='first')

# Agrupaci√≥n y agregaci√≥n de duplicados:
df_grouped = df.groupby(['track', 'artist']).agg({
    'plays': 'sum',
    'genre': 'first'
}).reset_index()

# Conteo de duplicados por grupo:
duplicate_counts = df.groupby(['track', 'artist']).size()

### Conceptos clave cubiertos:
- Duplicados completos - Filas completamente id√©nticas en todas las columnas
- Duplicados parciales - Filas que coinciden solo en columnas espec√≠ficas definidas por subset
- Par√°metro keep - Controla qu√© duplicado conservar: 'first' (primero), 'last' (√∫ltimo), False (eliminar todos)
- Par√°metro subset - Define qu√© columnas considerar para determinar duplicaci√≥n
- Agrupaci√≥n por duplicados - Usar groupby() para agrupar registros duplicados antes de procesarlos
- Funciones de agregaci√≥n - Aplicar sum(), mean(), count(), first() para consolidar datos duplicados
- Estrategias de consolidaci√≥n - Decidir c√≥mo combinar informaci√≥n de registros duplicados
- An√°lisis de frecuencia - Contar ocurrencias de duplicados para entender patrones en los datos
- Preservaci√≥n de informaci√≥n - Mantener datos relevantes al eliminar o consolidar duplicados
- Validaci√≥n post-procesamiento - Verificar que la eliminaci√≥n de duplicados mantenga la integridad del an√°lisis

## ü§î Pregunta para reflexionar:
¬øEn qu√© situaciones ser√≠a m√°s apropiado agrupar y agregar datos duplicados en lugar de simplemente eliminarlos, y c√≥mo determinar√≠as qu√© funci√≥n de agregaci√≥n usar para cada columna seg√∫n el tipo de informaci√≥n que contiene?


# üìñ Resumen del cap√≠tulo: Agrupaci√≥n de datos
Este cap√≠tulo introduce las t√©cnicas de agrupaci√≥n de datos, una herramienta fundamental para analizar y resumir informaci√≥n por categor√≠as espec√≠ficas, permitiendo obtener insights valiosos de datasets complejos. Se enfoca en:

- Conceptos b√°sicos de agrupaci√≥n
    - Comprender c√≥mo agrupar datos por una o m√∫ltiples columnas para crear subconjuntos l√≥gicos de informaci√≥n
- Aplicaci√≥n de funciones de agregaci√≥n
    - Utilizar funciones estad√≠sticas como suma, promedio, conteo y m√°ximo/m√≠nimo para resumir datos agrupados
- Agrupaci√≥n por m√∫ltiples criterios
    - Crear grupos complejos utilizando combinaciones de columnas para an√°lisis m√°s detallados
- Transformaci√≥n y filtrado de grupos
    - Aplicar operaciones espec√≠ficas a cada grupo y filtrar resultados seg√∫n criterios definidos
- An√°lisis estad√≠stico por grupos
    - Generar estad√≠sticas descriptivas y m√©tricas de rendimiento para cada categor√≠a de datos
- Visualizaci√≥n de resultados agrupados
    - Presentar los resultados de agrupaci√≥n de manera clara y comprensible para la toma de decisiones

# üìã Listado completo de comandos utilizados:
### Importaci√≥n de librer√≠as:
- import pandas as pd - Importa la librer√≠a pandas para manipulaci√≥n de datos

### M√©todos b√°sicos de agrupaci√≥n:
- .groupby() - Agrupa datos por una o m√°s columnas especificadas
- .groups - Muestra los grupos creados y sus √≠ndices correspondientes
- .get_group() - Obtiene un grupo espec√≠fico del objeto agrupado

### Funciones de agregaci√≥n b√°sicas:
- .sum() - Suma valores num√©ricos en cada grupo
- .mean() - Calcula la media aritm√©tica de cada grupo
- .count() - Cuenta valores no nulos en cada grupo
- .size() - Cuenta el total de elementos en cada grupo (incluyendo NaN)
- .min() - Encuentra el valor m√≠nimo en cada grupo
- .max() - Encuentra el valor m√°ximo en cada grupo

### M√©todos de agregaci√≥n avanzada:
- .agg() - Aplica m√∫ltiples funciones de agregaci√≥n simult√°neamente
- .apply() - Aplica funciones personalizadas a cada grupo
- .transform() - Aplica transformaciones manteniendo la forma original del DataFrame

### M√©todos de manipulaci√≥n de resultados:
- .reset_index() - Convierte √≠ndices de grupo en columnas regulares
- .sort_values() - Ordena los resultados agrupados por valores espec√≠ficos
- .head() - Muestra los primeros registros de cada grupo

### Funci√≥n de salida:
- print() - Muestra informaci√≥n sobre grupos y resultados de agregaci√≥n

In [None]:
# Ejemplos de uso mostrados:

# Agrupaci√≥n b√°sica por una columna:
grupos_genero = df.groupby('genre')
print(grupos_genero.sum())

# Agrupaci√≥n por m√∫ltiples columnas:
grupos_multiples = df.groupby(['genre', 'artist'])
print(grupos_multiples.mean())

# Aplicaci√≥n de m√∫ltiples funciones de agregaci√≥n:
resultado = df.groupby('genre').agg({
    'plays': ['sum', 'mean', 'count'],
    'duration': ['min', 'max']
})

# Agrupaci√≥n con transformaci√≥n:
df['plays_normalized'] = df.groupby('genre')['plays'].transform('mean')

# Filtrado de grupos:
grupos_grandes = df.groupby('genre').filter(lambda x: len(x) > 100)

# Obtener un grupo espec√≠fico:
rock_songs = df.groupby('genre').get_group('Rock')

# Agrupaci√≥n con ordenamiento:
top_genres = df.groupby('genre')['plays'].sum().sort_values(ascending=False)

# Aplicar funci√≥n personalizada:
def calcular_estadisticas(grupo):
    return grupo['plays'].std()

estadisticas = df.groupby('genre').apply(calcular_estadisticas)

### Conceptos clave cubiertos:
- Objeto GroupBy - Estructura que contiene los datos agrupados y permite aplicar operaciones
- Agrupaci√≥n simple - Agrupar por una sola columna categ√≥rica
- Agrupaci√≥n m√∫ltiple - Crear grupos usando combinaciones de m√∫ltiples columnas
- Funciones de agregaci√≥n - Operaciones que resumen datos de cada grupo en un solo valor
- Transformaci√≥n de grupos - Aplicar operaciones que mantienen el tama√±o original del DataFrame
- Filtrado de grupos - Seleccionar grupos que cumplen criterios espec√≠ficos
- √çndices jer√°rquicos - Estructura de √≠ndices multinivel resultante de agrupaciones m√∫ltiples
- Reset de √≠ndices - Convertir √≠ndices de grupo en columnas regulares para facilitar el an√°lisis
- Funciones personalizadas - Crear y aplicar operaciones espec√≠ficas usando apply()
- An√°lisis estad√≠stico por categor√≠as - Generar m√©tricas descriptivas para cada grupo de datos

## ü§î Pregunta para reflexionar:
¬øC√≥mo decidir√≠as qu√© columnas usar para agrupar tus datos y qu√© funciones de agregaci√≥n aplicar seg√∫n el tipo de an√°lisis que necesitas realizar, considerando tanto la naturaleza de tus datos como los objetivos de tu investigaci√≥n?

# üìñ Resumen del cap√≠tulo: Ordenar datos
Este cap√≠tulo introduce las t√©cnicas de ordenamiento de datos, una habilidad fundamental para organizar y analizar informaci√≥n de manera efectiva en DataFrames. Se enfoca en:

- Ordenamiento por una columna
    - Organizar los datos de forma ascendente o descendente bas√°ndose en los valores de una columna espec√≠fica
- Ordenamiento por m√∫ltiples columnas
    - Aplicar criterios de ordenamiento jer√°rquicos utilizando varias columnas con diferentes prioridades
- Configuraci√≥n de par√°metros de ordenamiento
    - Controlar la direcci√≥n del ordenamiento y el manejo de valores ausentes durante el proceso
- Ordenamiento por √≠ndice
    - Organizar los datos bas√°ndose en los valores del √≠ndice del DataFrame en lugar de las columnas
- Preservaci√≥n y modificaci√≥n de datos
    - Decidir si crear una nueva copia ordenada o modificar el DataFrame original directamente
- Manejo de valores ausentes en ordenamiento
    - Controlar la posici√≥n de los valores NaN en los resultados ordenados

# üìã Listado completo de comandos utilizados:
### Importaci√≥n de librer√≠as:
- import pandas as pd - Importa la librer√≠a pandas para manipulaci√≥n de datos

### M√©todos de ordenamiento por columnas:
- .sort_values() - Ordena el DataFrame por los valores de una o m√°s columnas
- by= - Par√°metro que especifica la columna o columnas por las cuales ordenar
- ascending= - Par√°metro que controla la direcci√≥n del ordenamiento (True/False)
- inplace= - Par√°metro que aplica cambios directamente al DataFrame original
- na_position= - Par√°metro que controla la posici√≥n de valores NaN ('first' o 'last')

### M√©todos de ordenamiento por √≠ndice:
- .sort_index() - Ordena el DataFrame por los valores del √≠ndice
- ascending= - Controla si el ordenamiento es ascendente o descendente

### Funci√≥n de salida:
- print() - Muestra los resultados del ordenamiento

In [None]:
# Ejemplos de uso mostrados:

# Ordenamiento ascendente por una columna:
df_sorted = df.sort_values(by='column_name')

# Ordenamiento descendente por una columna:
df_sorted = df.sort_values(by='column_name', ascending=False)

# Ordenamiento por m√∫ltiples columnas:
df_sorted = df.sort_values(by=['column1', 'column2'])

# Ordenamiento con diferentes direcciones para m√∫ltiples columnas:
df_sorted = df.sort_values(by=['column1', 'column2'], ascending=[True, False])

# Ordenamiento modificando el DataFrame original:
df.sort_values(by='column_name', inplace=True)

# Ordenamiento controlando posici√≥n de valores NaN:
df_sorted = df.sort_values(by='column_name', na_position='first')

# Ordenamiento por √≠ndice:
df_sorted = df.sort_index()

### Conceptos clave cubiertos:
- Ordenamiento ascendente - Organizar valores de menor a mayor (A-Z, 0-9)
- Ordenamiento descendente - Organizar valores de mayor a menor (Z-A, 9-0)
- Ordenamiento jer√°rquico - Aplicar m√∫ltiples criterios de ordenamiento con prioridades
- Par√°metro by - Especifica las columnas que servir√°n como criterio de ordenamiento
- Par√°metro ascending - Lista de valores booleanos para controlar direcci√≥n por columna
- Par√°metro na_position - Controla si los valores NaN aparecen al inicio ('first') o final ('last')
- Modificaci√≥n inplace - Cambiar el DataFrame original sin crear una copia nueva
- Ordenamiento por √≠ndice - Organizar filas bas√°ndose en los valores del √≠ndice del DataFrame
- Criterios m√∫ltiples - Usar varias columnas donde la segunda act√∫a como desempate de la primera
- Estabilidad del ordenamiento - Mantener el orden relativo de elementos iguales durante el proceso
- Tipos de datos mixtos - Manejar el ordenamiento cuando las columnas contienen diferentes tipos de datos
- Performance del ordenamiento - Considerar el impacto en memoria y tiempo de procesamiento

## ü§î Pregunta para reflexionar:
¬øC√≥mo determinar√≠as el orden de prioridad al usar m√∫ltiples columnas para ordenar tus datos, y en qu√© situaciones ser√≠a m√°s conveniente ordenar por √≠ndice en lugar de por valores de columnas espec√≠ficas?

# üìñ Resumen del cap√≠tulo: Contar valores ausentes
Este cap√≠tulo introduce el conteo de valores ausentes, una t√©cnica fundamental para evaluar la calidad y completitud de los datos en datasets. Se enfoca en:

- Identificaci√≥n de valores ausentes
    - Detectar la presencia de valores NaN, None y otros tipos de valores faltantes en el dataset utilizando m√©todos especializados
- Cuantificaci√≥n de valores ausentes
    - Contar la cantidad exacta de valores faltantes por columna y en todo el dataset para evaluar el impacto
- An√°lisis de patrones de ausencia
    - Identificar qu√© columnas tienen m√°s valores ausentes y evaluar si existe un patr√≥n en los datos faltantes
- Evaluaci√≥n de completitud de datos
    - Calcular porcentajes de valores ausentes para determinar la calidad general del dataset
- Visualizaci√≥n de valores ausentes
    - Presentar la informaci√≥n de valores faltantes de manera clara y comprensible para tomar decisiones informadas
- Preparaci√≥n para tratamiento
    - Establecer las bases para decidir estrategias de manejo de valores ausentes (eliminaci√≥n, imputaci√≥n, etc.)

# üìã Listado completo de comandos utilizados:
### Importaci√≥n de librer√≠as:
- import pandas as pd - Importa la librer√≠a pandas para manipulaci√≥n de datos

### Carga de datos:
- pd.read_csv() - Lee archivos CSV y carga los datos en un DataFrame

### M√©todos de identificaci√≥n de valores ausentes:
- .isnull() - Identifica valores ausentes devolviendo True/False para cada celda
- .isna() - M√©todo alternativo para identificar valores ausentes (equivalente a isnull())
- .notnull() - Identifica valores NO ausentes devolviendo True/False
- .notna() - M√©todo alternativo para identificar valores NO ausentes

### M√©todos de conteo de valores ausentes:
- .isnull().sum() - Cuenta valores ausentes por columna
- .isna().sum() - M√©todo alternativo para contar valores ausentes por columna
- .isnull().sum().sum() - Cuenta el total de valores ausentes en todo el DataFrame

### M√©todos de informaci√≥n del DataFrame:
- .info() - Proporciona informaci√≥n general incluyendo valores no nulos por columna
- .shape - Muestra las dimensiones del DataFrame (filas, columnas)
- .describe() - Estad√≠sticas descriptivas que pueden revelar patrones de ausencia

### Funci√≥n de salida:
- print() - Muestra informaci√≥n sobre valores ausentes y resultados del conteo

In [None]:
# Ejemplos de uso mostrados:

# Conteo de valores ausentes por columna:
print(df.isnull().sum())

# Conteo total de valores ausentes:
print(df.isnull().sum().sum())

# Verificaci√≥n de valores ausentes en columna espec√≠fica:
print(df['columna'].isnull().sum())

# Porcentaje de valores ausentes por columna:
print((df.isnull().sum() / len(df)) * 100)

# Informaci√≥n general del DataFrame:
print(df.info())

# Verificaci√≥n de completitud:
print(f"Total de celdas: {df.shape[0] * df.shape[1]}")
print(f"Valores ausentes: {df.isnull().sum().sum()}")

### Conceptos clave cubiertos:
- Valores ausentes
- Datos faltantes representados como NaN, None o valores vac√≠os
- M√©todos isnull() e isna()
- Funciones equivalentes para detectar valores ausentes
- Conteo por columna
- Identificar qu√© variables tienen m√°s datos faltantes
- Conteo total
- Evaluar la magnitud general de valores ausentes en todo el dataset
- Porcentaje de ausencia
- Calcular la proporci√≥n de valores faltantes respecto al total
- An√°lisis de completitud
- Evaluar qu√© tan completo est√° el dataset para el an√°lisis
- Patrones de ausencia
- Identificar si los valores faltantes siguen alg√∫n patr√≥n espec√≠fico
- Informaci√≥n del DataFrame
- Usar info() para obtener un resumen de valores no nulos
- Evaluaci√≥n de calidad
- Determinar si el dataset es adecuado para el an√°lisis planificado
- Preparaci√≥n para limpieza
- Establecer criterios para decidir el tratamiento de valores ausentes
- M√©todos complementarios
- Usar notnull() y notna() para verificar valores presentes
- Dimensiones del dataset
- Relacionar el conteo de ausentes con el tama√±o total de datos

## ü§î Pregunta para reflexionar:
¬øQu√© porcentaje de valores ausentes considerar√≠as aceptable en una columna antes de decidir eliminarla del an√°lisis, y c√≥mo influir√≠a la importancia de esa variable en tu decisi√≥n sobre el tratamiento de los datos faltantes?


# üìñ Resumen del cap√≠tulo: Filtrar DataFrames por valores ausentes
Este cap√≠tulo introduce el filtrado de DataFrames por valores ausentes, una t√©cnica fundamental para seleccionar y analizar subconjuntos de datos bas√°ndose en la presencia o ausencia de valores. Se enfoca en:

- Filtrado por filas con valores ausentes
    - Seleccionar filas que contienen valores NaN en columnas espec√≠ficas o en cualquier columna del DataFrame
- Filtrado por filas sin valores ausentes
    - Identificar y extraer √∫nicamente las filas que tienen datos completos en todas las columnas relevantes
- Filtrado condicional por ausencias
    - Aplicar criterios espec√≠ficos para filtrar datos bas√°ndose en patrones de valores ausentes en m√∫ltiples columnas
- An√°lisis de subconjuntos de datos
    - Examinar caracter√≠sticas espec√≠ficas de los datos que tienen o no tienen valores ausentes
- Combinaci√≥n de filtros
    - Crear filtros complejos que combinen condiciones de valores ausentes con otros criterios de selecci√≥n
- Evaluaci√≥n de calidad por segmentos
    - Analizar la completitud de datos en diferentes subconjuntos del DataFrame

# üìã Listado completo de comandos utilizados:
### Importaci√≥n de librer√≠as:
- import pandas as pd - Importa la librer√≠a pandas para manipulaci√≥n de datos

### Carga de datos:
- pd.read_csv() - Lee archivos CSV y carga los datos en un DataFrame

### M√©todos de identificaci√≥n de valores ausentes:
- .isnull() - Identifica valores ausentes devolviendo True/False para cada celda
- .isna() - M√©todo alternativo para identificar valores ausentes
- .notnull() - Identifica valores NO ausentes devolviendo True/False
- .notna() - M√©todo alternativo para identificar valores NO ausentes

### M√©todos de filtrado por valores ausentes:
- df[df['columna'].isnull()] - Filtra filas donde la columna espec√≠fica tiene valores ausentes
- df[df['columna'].isna()] - M√©todo alternativo para filtrar por valores ausentes
- df[df['columna'].notnull()] - Filtra filas donde la columna espec√≠fica NO tiene valores ausentes
- df[df['columna'].notna()] - M√©todo alternativo para filtrar por valores NO ausentes

### M√©todos de filtrado m√∫ltiple:
- df[df.isnull().any(axis=1)] - Filtra filas que tienen al menos un valor ausente
- df[df.notnull().all(axis=1)] - Filtra filas que NO tienen ning√∫n valor ausente
- df[df[['col1', 'col2']].isnull().any(axis=1)] - Filtra por valores ausentes en columnas espec√≠ficas

### Operadores l√≥gicos para filtrado:
- & - Operador AND para combinar condiciones
- | - Operador OR para combinar condiciones
- ~ - Operador NOT para negar condiciones

### M√©todos de informaci√≥n del DataFrame:
- .shape - Muestra las dimensiones del DataFrame filtrado
- .info() - Proporciona informaci√≥n general sobre el DataFrame filtrado

### Funci√≥n de salida:
- print() - Muestra informaci√≥n sobre los resultados del filtrado

In [None]:
# Ejemplos de uso mostrados:

# Filtrar filas con valores ausentes en una columna espec√≠fica:
filas_con_ausentes = df[df['columna'].isnull()]

# Filtrar filas sin valores ausentes en una columna espec√≠fica:
filas_completas = df[df['columna'].notnull()]

# Filtrar filas que tienen al menos un valor ausente:
filas_con_cualquier_ausente = df[df.isnull().any(axis=1)]

# Filtrar filas completamente sin valores ausentes:
filas_completamente_llenas = df[df.notnull().all(axis=1)]

# Filtrar usando operador de negaci√≥n:
filas_sin_ausentes = df[~df['columna'].isnull()]

# Filtrar con m√∫ltiples condiciones:
filtro_complejo = df[df['col1'].isnull() & df['col2'].notnull()]

# Verificar el tama√±o despu√©s del filtrado:
print(f"Filas originales: {df.shape[0]}")
print(f"Filas con ausentes: {df[df['columna'].isnull()].shape[0]}")

### Conceptos clave cubiertos:
- Filtrado booleano - Usar m√°scaras de True/False para seleccionar filas espec√≠ficas
- Operador de negaci√≥n (~) - Invertir condiciones booleanas para obtener el resultado opuesto
- Filtrado por columna espec√≠fica - Seleccionar filas bas√°ndose en valores ausentes en una columna particular
- Filtrado por m√∫ltiples columnas - Usar any() y all() para evaluar condiciones en varias columnas
- Combinaci√≥n de condiciones - Usar operadores l√≥gicos (&, |) para crear filtros complejos
- M√°scaras booleanas - Series de valores True/False que determinan qu√© filas seleccionar
- M√©todo any() - Eval√∫a si al menos una condici√≥n es verdadera en el eje especificado
- M√©todo all() - Eval√∫a si todas las condiciones son verdaderas en el eje especificado
- An√°lisis de subconjuntos - Examinar caracter√≠sticas espec√≠ficas de datos filtrados
- Evaluaci√≥n de completitud - Determinar qu√© porci√≥n de datos est√° completa o incompleta

## ü§î Pregunta para reflexionar:
¬øEn qu√© situaciones ser√≠a m√°s √∫til analizar √∫nicamente las filas con valores ausentes versus las filas con datos completos, y c√≥mo podr√≠a influir esto en las conclusiones de tu an√°lisis?

# üìñ Resumen del cap√≠tulo: Rellenar los valores categ√≥ricos ausentes
Este cap√≠tulo introduce el relleno de valores categ√≥ricos ausentes, una t√©cnica fundamental para manejar datos faltantes en variables no num√©ricas y garantizar la completitud del an√°lisis. Se enfoca en:

- Diferenciaci√≥n entre variables cuantitativas y categ√≥ricas
    - Distinguir entre datos num√©ricos que permiten operaciones aritm√©ticas y datos categ√≥ricos que representan categor√≠as o etiquetas
- Identificaci√≥n de variables categ√≥ricas
    - Reconocer columnas que contienen valores como texto, c√≥digos, etiquetas o categor√≠as que no requieren c√°lculos matem√°ticos
- M√©todos de relleno con par√°metros de lectura
    - Aplicar t√©cnicas para controlar c√≥mo se interpretan los valores ausentes durante la carga de datos
- Reemplazo de valores categ√≥ricos
    - Usar m√©todos para sustituir valores ausentes o vac√≠os con categor√≠as apropiadas
- An√°lisis de tasas de conversi√≥n
    - Calcular m√©tricas de negocio utilizando datos categ√≥ricos limpios para obtener insights significativos
- Agrupaci√≥n y an√°lisis por categor√≠as
    - Usar groupby() para analizar datos categ√≥ricos y calcular estad√≠sticas por grupos espec√≠ficos

# üìã Listado completo de comandos utilizados:
### Importaci√≥n de librer√≠as:
- import pandas as pd - Importa la librer√≠a pandas para manipulaci√≥n de datos

### Carga de datos:
- pd.read_csv() - Lee archivos CSV y carga los datos en un DataFrame
- keep_default_na=False - Par√°metro que convierte valores ausentes en cadenas vac√≠as durante la lectura

### M√©todos de identificaci√≥n de valores ausentes:
- .info() - Proporciona informaci√≥n general sobre el DataFrame incluyendo valores no nulos
- .head() - Muestra las primeras filas del DataFrame

### M√©todos de reemplazo de valores:
- .replace() - Reemplaza valores espec√≠ficos con otros valores
- .replace('', 'email') - Reemplaza cadenas vac√≠as con la categor√≠a 'email'

### M√©todos de agrupaci√≥n y an√°lisis:
- .groupby() - Agrupa datos por una o m√°s columnas categ√≥ricas
- .count() - Cuenta el n√∫mero de valores no nulos en cada grupo
- .sum() - Suma valores num√©ricos dentro de cada grupo

### Funci√≥n de salida:
- print() - Muestra informaci√≥n sobre el procesamiento y resultados del an√°lisis


In [None]:
# Ejemplos de uso mostrados:

# Lectura de datos convirtiendo valores ausentes en cadenas vac√≠as:
import pandas as pd
df_logs = pd.read_csv('/datasets/visit_log.csv', keep_default_na=False)
print(df_logs.head())
df_logs.info()

# Reemplazo de cadenas vac√≠as con categor√≠a espec√≠fica:
df_logs['source'] = df_logs['source'].replace('', 'email')

# Conteo de visitas por fuente de tr√°fico:
visits = df_logs.groupby('source')['user_id'].count()

# C√°lculo de compras por fuente:
purchases = df_logs.groupby('source')['purchase'].sum()
print(purchases)

# C√°lculo de tasa de conversi√≥n:
conversion = purchases / visits
print(conversion)

### Conceptos clave cubiertos:
- Valores categ√≥ricos ausentes - Datos faltantes en variables que representan categor√≠as o grupos discretos
- Par√°metro keep_default_na=False - Configuraci√≥n para leer cadenas vac√≠as como texto en lugar de NaN
- Relleno con moda - Usar el valor m√°s frecuente para completar datos categ√≥ricos ausentes
- Relleno con valor constante - Asignar un valor espec√≠fico predefinido a todos los datos ausentes
- An√°lisis de frecuencias - Examinar la distribuci√≥n de valores categ√≥ricos antes del relleno
- Preservaci√≥n de distribuci√≥n - Mantener las proporciones originales al completar datos ausentes
- Estrategias de relleno categ√≥rico - Diferentes enfoques para manejar ausencias en variables categ√≥ricas
- Validaci√≥n post-relleno - Verificar que no queden valores ausentes despu√©s del procesamiento
- Impacto en an√°lisis - Evaluar c√≥mo el relleno de categ√≥ricos afecta los resultados posteriores
- Selecci√≥n de estrategia - Elegir el m√©todo de relleno m√°s apropiado seg√∫n el contexto de los datos

## ü§î Pregunta para reflexionar:
¬øCu√°ndo ser√≠a m√°s apropiado rellenar valores categ√≥ricos ausentes con la moda versus usar un valor constante como "unknown", y c√≥mo podr√≠a cada estrategia afectar las conclusiones de tu an√°lisis?


# üìñ Resumen del cap√≠tulo: Rellenar los valores ausentes cuantitativos
Este cap√≠tulo introduce el manejo de valores cuantitativos ausentes, una t√©cnica fundamental para completar datos faltantes en variables num√©ricas y preservar la integridad estad√≠stica del an√°lisis. Se enfoca en:

- Identificaci√≥n de valores cuantitativos ausentes
    - Detectar valores NaN o ausentes espec√≠ficamente en columnas num√©ricas utilizando m√©todos de exploraci√≥n estad√≠stica
- Estrategias de relleno num√©rico
    - Aplicar t√©cnicas estad√≠sticas apropiadas para completar valores cuantitativos como la media, mediana o m√©todos de interpolaci√≥n
- An√°lisis de distribuci√≥n num√©rica
    - Evaluar la distribuci√≥n estad√≠stica de los datos cuantitativos para elegir la medida de tendencia central m√°s apropiada
- Preservaci√≥n de propiedades estad√≠sticas
    - Mantener las caracter√≠sticas estad√≠sticas originales de los datos al rellenar valores ausentes
- Consideraci√≥n de outliers
    - Evaluar el impacto de valores at√≠picos en la elecci√≥n del m√©todo de relleno m√°s adecuado
- Validaci√≥n estad√≠stica
    - Verificar que el relleno de valores cuantitativos no altere significativamente las propiedades estad√≠sticas del dataset

# üìã Listado completo de comandos utilizados:

### Importaci√≥n de librer√≠as:
- import pandas as pd - Importa la librer√≠a pandas para manipulaci√≥n de datos

### Carga de datos:
- pd.read_csv() - Lee archivos CSV y carga los datos en un DataFrame

### M√©todos de identificaci√≥n de valores ausentes:
- .isna() - Identifica valores ausentes devolviendo True/False para cada celda
- .isna().sum() - Cuenta el n√∫mero total de valores ausentes por columna
- .info() - Muestra informaci√≥n general incluyendo valores no nulos

### M√©todos de an√°lisis estad√≠stico:
- .mean() - Calcula la media aritm√©tica de una columna num√©rica
- .median() - Calcula la mediana de una columna num√©rica
- .mode() - Calcula la moda de una columna num√©rica
- .describe() - Proporciona estad√≠sticas descriptivas completas
- .std() - Calcula la desviaci√≥n est√°ndar
- .min() - Obtiene el valor m√≠nimo
- .max() - Obtiene el valor m√°ximo

### M√©todos de relleno de valores ausentes:
- .fillna() - Rellena valores ausentes con un valor espec√≠fico
- .fillna(df['columna'].mean()) - Rellena con la media de la columna
- .fillna(df['columna'].median()) - Rellena con la mediana de la columna
- .fillna(method='ffill') - Rellena con el valor anterior (forward fill)
- .fillna(method='bfill') - Rellena con el valor siguiente (backward fill)
- .interpolate() - Rellena usando interpolaci√≥n lineal
- inplace=True - Par√°metro que aplica cambios directamente al DataFrame

### M√©todos de verificaci√≥n:
- .shape - Muestra las dimensiones del DataFrame (filas, columnas)
- .head() - Muestra las primeras filas del DataFrame
- .tail() - Muestra las √∫ltimas filas del DataFrame

### Funci√≥n de salida:
- print() - Muestra informaci√≥n sobre valores ausentes y resultados del relleno


In [None]:
# Ejemplos de uso mostrados:

# C√°lculo de la media para rellenar valores ausentes:
age_avg = analytics_data['age'].mean()
print("Mean age:", age_avg)
analytics_data['age'] = analytics_data['age'].fillna(age_avg)

# Filtrado por tipo de dispositivo:
desktop_data = analytics_data[analytics_data['device_type'] == 'desktop']
mobile_data = analytics_data[analytics_data['device_type'] == 'mobile']

# C√°lculo de medias espec√≠ficas por grupo:
desktop_avg = desktop_data['time'].mean()
mobile_avg = mobile_data['time'].mean()

# Relleno con medias espec√≠ficas por grupo:
desktop_data['time'].fillna(desktop_avg, inplace=True)
mobile_data['time'].fillna(mobile_avg, inplace=True)

# Verificaci√≥n de informaci√≥n del DataFrame:
analytics_data.info()

### Conceptos clave cubiertos:
- Variables cuantitativas vs categ√≥ricas - Distinci√≥n entre datos num√©ricos (edad, tiempo) y categ√≥ricos (user_id, device_type)
- Media aritm√©tica - Suma de todos los valores dividida entre el n√∫mero total de valores para representar el valor t√≠pico
- Mediana - Valor central cuando los datos se ordenan de menor a mayor, √∫til cuando hay valores at√≠picos
- Valores at√≠picos (outliers) - Datos que se desv√≠an significativamente del patr√≥n general y afectan la representatividad de la media
- Selecci√≥n de medida de tendencia central - Criterios para elegir entre media y mediana seg√∫n la presencia de outliers
- Relleno con valores representativos - Uso de estad√≠sticas descriptivas apropiadas para completar datos cuantitativos ausentes
- Filtrado por grupos - Separaci√≥n de datos por categor√≠as para calcular estad√≠sticas espec√≠ficas por subgrupo
- Exclusi√≥n autom√°tica de NaN - Los m√©todos estad√≠sticos como mean() ignoran autom√°ticamente los valores ausentes en sus c√°lculos
- Unidades de medida - Importancia de considerar las unidades (a√±os, segundos) al trabajar con datos cuantitativos
- An√°lisis previo de outliers - Necesidad de verificar la presencia de valores at√≠picos antes de elegir el m√©todo de relleno

## ü§î Pregunta para reflexionar:
¬øEn qu√© situaciones ser√≠a m√°s apropiado usar la mediana en lugar de la media para rellenar valores cuantitativos ausentes, y c√≥mo podr√≠as identificar si tu conjunto de datos tiene valores at√≠picos que influyan en esta decisi√≥n?


# üìñ Resumen del cap√≠tulo: Gesti√≥n de duplicados
Este cap√≠tulo introduce la gesti√≥n de duplicados, una t√©cnica fundamental para identificar y manejar registros repetidos en datasets y garantizar la calidad del an√°lisis. Se enfoca en:

- Identificaci√≥n de registros duplicados
    - Detectar filas completamente id√©nticas o duplicadas en columnas espec√≠ficas utilizando m√©todos especializados
- Comprensi√≥n de tipos de duplicados
    - Distinguir entre duplicados completos (toda la fila) y duplicados parciales (columnas espec√≠ficas) seg√∫n el contexto del an√°lisis
- Estrategias de eliminaci√≥n de duplicados
    - Aplicar m√©todos para remover registros duplicados manteniendo solo la primera o √∫ltima ocurrencia seg√∫n sea necesario
- An√°lisis de impacto de duplicados
    - Evaluar c√≥mo los registros duplicados afectan la integridad y representatividad de los datos
- Preservaci√≥n de registros √∫nicos
    - Mantener solo los registros √∫nicos relevantes mientras se eliminan las copias innecesarias
- Control de criterios de duplicaci√≥n
    - Especificar qu√© columnas considerar para determinar si un registro es duplicado

# üìã Listado completo de comandos utilizados:

### Importaci√≥n de librer√≠as:
- import pandas as pd - Importa la librer√≠a pandas para manipulaci√≥n de datos

### Carga de datos:
- pd.read_csv() - Lee archivos CSV y carga los datos en un DataFrame

### M√©todos de identificaci√≥n de duplicados:
- .duplicated() - Identifica filas duplicadas devolviendo True/False para cada fila
- .duplicated().sum() - Cuenta el n√∫mero total de duplicados cuando se combina con duplicated()
- subset= - Par√°metro que especifica columnas espec√≠ficas para evaluar duplicaci√≥n

### M√©todos de eliminaci√≥n de duplicados:
- .drop_duplicates() - Elimina filas duplicadas del DataFrame
- .drop_duplicates(keep='first') - Elimina duplicados manteniendo la primera ocurrencia
- .drop_duplicates(keep='last') - Elimina duplicados manteniendo la √∫ltima ocurrencia
- .drop_duplicates(keep=False) - Elimina todas las ocurrencias de duplicados
- .drop_duplicates(subset=['columna']) - Elimina duplicados bas√°ndose en columnas espec√≠ficas
- inplace=True - Par√°metro que aplica cambios directamente al DataFrame

### M√©todos de reindexaci√≥n:
- .reset_index() - Reinicia los √≠ndices del DataFrame
- .reset_index(drop=True) - Reinicia los √≠ndices eliminando el √≠ndice anterior

### M√©todos de an√°lisis de valores √∫nicos:
- .unique() - Obtiene los valores √∫nicos de una columna espec√≠fica
- .nunique() - Cuenta el n√∫mero de valores √∫nicos en una columna

### M√©todos de informaci√≥n del DataFrame:
- .shape - Muestra las dimensiones del DataFrame (filas, columnas)
- .info() - Proporciona informaci√≥n general sobre el DataFrame

### Funci√≥n de salida:
- print() - Muestra informaci√≥n sobre duplicados y resultados del procesamiento

In [None]:
# Ejemplos de uso mostrados:

# Eliminaci√≥n de duplicados completos:
df_clean = df.drop_duplicates()

# Eliminaci√≥n de duplicados en columnas espec√≠ficas:
df_clean = df.drop_duplicates(subset=['track', 'artist'])

# Eliminaci√≥n manteniendo el √∫ltimo duplicado:
df_last = df.drop_duplicates(keep='last')

# Eliminaci√≥n usando inplace:
df.drop_duplicates(inplace=True)

# Verificaci√≥n del tama√±o antes y despu√©s:
print(f"Antes: {df.shape}")
df_clean = df.drop_duplicates()
print(f"Despu√©s: {df_clean.shape}")

# Reinicio de √≠ndices despu√©s de eliminar duplicados:
df_clean = df_clean.reset_index(drop=True)

# An√°lisis de valores √∫nicos:
print(df['columna'].unique())
print(df['columna'].nunique())

### Conceptos clave cubiertos:
- Duplicados completos - Filas que son id√©nticas en todas sus columnas
- Duplicados parciales - Filas que son id√©nticas solo en columnas espec√≠ficas definidas por subset
- Par√°metro keep - Controla qu√© duplicado mantener: 'first' (primero), 'last' (√∫ltimo), False (eliminar todos)
- Par√°metro subset - Define qu√© columnas considerar para determinar duplicaci√≥n
- An√°lisis de impacto - Evaluar c√≥mo los duplicados afectan el tama√±o y representatividad del dataset
- Verificaci√≥n de duplicados - Usar duplicated() para identificar la presencia y cantidad de registros duplicados
- Estrategia de conservaci√≥n - Decidir qu√© instancia del duplicado mantener seg√∫n el contexto del an√°lisis
- Limpieza de datos - Proceso de eliminaci√≥n de duplicados como parte de la preparaci√≥n de datos
- Modificaci√≥n inplace - Aplicar cambios de eliminaci√≥n directamente al DataFrame original
- Reindexaci√≥n post-eliminaci√≥n - Reorganizar los √≠ndices despu√©s de eliminar filas duplicadas

## ü§î Pregunta para reflexionar:
¬øC√≥mo determinar√≠as qu√© columnas espec√≠ficas considerar al identificar duplicados en tu dataset, y cu√°ndo ser√≠a apropiado mantener el primer duplicado versus el √∫ltimo duplicado encontrado?

# üìñ Resumen del cap√≠tulo: √çndices en DataFrames y Series
Este cap√≠tulo introduce el manejo de √≠ndices en pandas, una funcionalidad fundamental para organizar, acceder y manipular datos de manera eficiente. Se enfoca en:

- Comprensi√≥n de √≠ndices
    - Entender qu√© son los √≠ndices y c√≥mo funcionan como etiquetas para filas y columnas en DataFrames y Series
- Manipulaci√≥n de √≠ndices
    - Modificar, establecer y resetear √≠ndices para optimizar el acceso y organizaci√≥n de los datos
- Acceso por √≠ndices
    - Utilizar √≠ndices para seleccionar, filtrar y acceder a datos espec√≠ficos de manera eficiente
- √çndices personalizados
    - Crear √≠ndices significativos que faciliten el an√°lisis y la interpretaci√≥n de los datos
- Operaciones con √≠ndices
    -Realizar operaciones como ordenamiento, b√∫squeda y alineaci√≥n usando √≠ndices
- √çndices jer√°rquicos
    - Trabajar con MultiIndex para estructuras de datos m√°s complejas

# üìã Listado completo de comandos utilizados:
### Importaci√≥n de librer√≠as:
- import pandas as pd - Importa la librer√≠a pandas para manipulaci√≥n de datos

### Carga de datos:
- pd.read_csv() - Lee archivos CSV y carga los datos en un DataFrame

### M√©todos de visualizaci√≥n de √≠ndices:
- .index - Accede al √≠ndice del DataFrame o Series
- .columns - Accede a los nombres de las columnas del DataFrame
- .index.name - Obtiene o establece el nombre del √≠ndice

### M√©todos de establecimiento de √≠ndices:
- .set_index() - Establece una o m√°s columnas como √≠ndice
- .set_index('columna') - Establece una columna espec√≠fica como √≠ndice
- .set_index(['col1', 'col2']) - Establece m√∫ltiples columnas como √≠ndice (MultiIndex)
- inplace=True - Par√°metro que aplica cambios directamente al DataFrame

### M√©todos de reseteo de √≠ndices:
- .reset_index() - Convierte el √≠ndice en una columna regular
- .reset_index(drop=True) - Resetea el √≠ndice eliminando el √≠ndice anterior
- .reset_index(inplace=True) - Resetea el √≠ndice modificando el DataFrame original

### M√©todos de acceso por √≠ndices:
- .loc[] - Acceso por etiquetas de √≠ndice
- .iloc[] - Acceso por posici√≥n num√©rica
- .at[] - Acceso r√°pido a un valor espec√≠fico por etiqueta
- .iat[] - Acceso r√°pido a un valor espec√≠fico por posici√≥n

### M√©todos de ordenamiento por √≠ndices:
- .sort_index() - Ordena el DataFrame por el √≠ndice
- .sort_index(ascending=False) - Ordena el √≠ndice en orden descendente
- .sort_values() - Ordena por valores de una columna espec√≠fica

### M√©todos de manipulaci√≥n de √≠ndices:
- .reindex() - Reordena el DataFrame seg√∫n un nuevo √≠ndice
- .rename() - Renombra √≠ndices o columnas
- .rename_axis() - Renombra el eje del √≠ndice

### M√©todos para MultiIndex:
- pd.MultiIndex.from_tuples() - Crea un MultiIndex desde tuplas
- pd.MultiIndex.from_arrays() - Crea un MultiIndex desde arrays
- .swaplevel() - Intercambia niveles en un MultiIndex
- .droplevel() - Elimina un nivel del MultiIndex

### M√©todos de informaci√≥n:
- .info() - Informaci√≥n general del DataFrame incluyendo √≠ndices
- .describe() - Estad√≠sticas descriptivas
- .shape - Dimensiones del DataFrame

### Funci√≥n de salida:
- print() - Muestra informaci√≥n sobre √≠ndices y resultados del procesamiento

In [None]:
# Ejemplos de uso mostrados:

# Creaci√≥n de DataFrame con √≠ndice personalizado:
df = pd.DataFrame({'state': states, 'flower': flowers, 'insect': insects}, index=index)

# Establecimiento de √≠ndice desde una columna:
df = df.set_index('state')

# Eliminaci√≥n del nombre del √≠ndice:
df.index.name = None

# Acceso con loc[] (por etiquetas):
filtered_df = df.loc[['state 1', 'state 3'], ['flower', 'insect']]

# Acceso con iloc[] (por posici√≥n):
flowers = df.iloc[0:3, 1]

# Visualizaci√≥n de informaci√≥n del √≠ndice:
print(df.index)
print(df.columns)

### Conceptos clave cubiertos:
- √çndices personalizados
- Establecer etiquetas significativas para las filas usando valores espec√≠ficos
- set_index()
- Convertir una columna existente en el √≠ndice del DataFrame
- Nombres de √≠ndices
- Asignar y eliminar nombres descriptivos para los √≠ndices usando index.name
- loc[] vs iloc[]
- Diferencia entre indexaci√≥n por etiquetas (loc) y por posici√≥n num√©rica (iloc)
- Indexaci√≥n m√∫ltiple
- Seleccionar m√∫ltiples filas y columnas simult√°neamente
- Atributo index
- Acceder y manipular directamente el objeto √≠ndice del DataFrame
- Filtrado por √≠ndice
- Usar valores de √≠ndice para seleccionar subconjuntos espec√≠ficos de datos
- Indexaci√≥n booleana
- Aplicar condiciones l√≥gicas para filtrar datos bas√°ndose en √≠ndices
- Manipulaci√≥n de estructura
- Modificar la organizaci√≥n de datos cambiando √≠ndices y columnas

## ü§î Pregunta para reflexionar:
¬øEn qu√© situaciones ser√≠a m√°s conveniente usar loc[] versus iloc[] para acceder a tus datos, y c√≥mo puede un √≠ndice personalizado mejorar la legibilidad y eficiencia de tu an√°lisis de datos?


# üìñ Resumen del cap√≠tulo: Filtrado personalizado mediante query()
Este cap√≠tulo introduce el m√©todo query() de pandas, una herramienta poderosa para filtrar DataFrames usando expresiones de cadena similares a SQL. Se enfoca en:

- Sintaxis de consultas con query()
    - Utilizar expresiones de cadena para crear filtros complejos de manera m√°s legible y eficiente
- Operadores de comparaci√≥n en query()
    - Aplicar operadores l√≥gicos y de comparaci√≥n dentro de expresiones de cadena para filtrar datos
- Filtrado con m√∫ltiples condiciones
    - Combinar m√∫ltiples criterios usando operadores l√≥gicos (and, or, not) en una sola expresi√≥n query()
- Variables externas en query()
    - Referenciar variables de Python dentro de las expresiones query() usando el s√≠mbolo @
- Filtrado con m√©todos de cadena
    - Integrar m√©todos de manipulaci√≥n de strings dentro de las expresiones query() para filtros m√°s sofisticados
- Optimizaci√≥n de consultas
    - Aprovechar la eficiencia del m√©todo query() para mejorar el rendimiento en DataFrames grandes

# üìã Listado completo de comandos utilizados:
### Importaci√≥n de librer√≠as:
- import pandas as pd - Importa la librer√≠a pandas para manipulaci√≥n de datos

### Carga de datos:
- pd.read_csv() - Lee archivos CSV y carga los datos en un DataFrame

### M√©todo principal de filtrado:
- .query() - Filtra el DataFrame usando expresiones de cadena
- .query('condici√≥n') - Aplica una condici√≥n simple de filtrado
- .query('columna > valor') - Filtra usando operadores de comparaci√≥n
- .query('columna == "valor"') - Filtra por igualdad con valores de texto

### Operadores de comparaci√≥n en query():
- == - Igual a
- != - Diferente de  
- '> - Mayor que
- < - Menor que
- '>= - Mayor o igual que
- <= - Menor o igual que

### Operadores l√≥gicos en query():
- and - Operador l√≥gico Y para combinar condiciones
- or - Operador l√≥gico O para alternativas
- not - Operador l√≥gico NO para negaci√≥n
- & - Operador alternativo para AND
- | - Operador alternativo para OR

### Variables externas en query():
- @ - S√≠mbolo para referenciar variables externas de Python
- .query('@variable') - Usa una variable externa en la consulta

### M√©todos de cadena en query():
- .str.contains() - Busca patrones dentro de strings
- .str.startswith() - Filtra strings que empiecen con un patr√≥n
- .str.endswith() - Filtra strings que terminen con un patr√≥n
- .isin() - Verifica si los valores est√°n en una lista espec√≠fica

### Funci√≥n de salida:
- print() - Muestra los resultados del filtrado

In [None]:
# Ejemplos de uso mostrados:

# Filtrado simple con query():
df_filtered = df.query('age > 25')

# Filtrado con m√∫ltiples condiciones:
df_filtered = df.query('age > 25 and salary < 50000')

# Filtrado usando variables externas:
min_age = 30
df_filtered = df.query('age > @min_age')

# Filtrado con operadores de cadena:
df_filtered = df.query('name.str.contains("John")')

# Filtrado con listas usando isin():
cities = ['Madrid', 'Barcelona', 'Valencia']
df_filtered = df.query('city.isin(@cities)')

# Filtrado con negaci√≥n:
df_filtered = df.query('not (age < 18)')

# Filtrado combinando condiciones complejas:
df_filtered = df.query('(age >= 25 and age <= 65) and salary > 30000')

# Filtrado con valores nulos:
df_filtered = df.query('column.notna()')

# Filtrado con rangos usando between():
df_filtered = df.query('age.between(25, 65)')

# Filtrado case-sensitive en strings:
df_filtered = df.query('name.str.contains("john", case=False)')

### Conceptos clave cubiertos:
- Sintaxis de expresiones
- Usar cadenas de texto para definir condiciones de filtrado de manera intuitiva
- Operadores de comparaci√≥n
- Aplicar >, <, ==, !=, >=, <= dentro de expresiones query()
- Operadores l√≥gicos
- Combinar m√∫ltiples condiciones usando and, or, not para filtros complejos
- Variables externas
- Referenciar variables de Python usando @ para hacer consultas din√°micas
- M√©todos de cadena integrados
- Usar .str.contains(), .str.startswith(), .str.endswith() dentro de query()
- Filtrado por listas
- Utilizar .isin() para verificar pertenencia a conjuntos de valores
- Manejo de valores nulos
- Aplicar .notna() y .isna() para filtrar datos faltantes
- Rangos de valores
- Usar .between() para filtrar valores dentro de un rango espec√≠fico
- Case sensitivity
- Controlar la sensibilidad a may√∫sculas/min√∫sculas en filtros de texto
- Optimizaci√≥n de rendimiento
- Aprovechar la eficiencia del motor de consultas de pandas
- Legibilidad del c√≥digo
- Crear filtros m√°s legibles comparado con indexaci√≥n booleana tradicional
- Expresiones complejas
- Construir consultas sofisticadas combinando m√∫ltiples operadores y condiciones

## ü§î Pregunta para reflexionar:
¬øEn qu√© situaciones ser√≠a m√°s ventajoso usar el m√©todo query() en lugar de la indexaci√≥n booleana tradicional, y c√≥mo puede el uso de variables externas con @ hacer tus consultas m√°s din√°micas y reutilizables?


# üìñ Resumen del cap√≠tulo: Uso de estructuras de datos externas para filtrar DataFrames
Este cap√≠tulo introduce el uso de estructuras de datos externas como listas, sets, diccionarios y otros DataFrames para filtrar y seleccionar datos de manera eficiente. Se enfoca en:

- Filtrado con listas y arrays
    - Utilizar listas de Python y arrays de NumPy como criterios de filtrado para seleccionar registros espec√≠ficos
- Filtrado con sets para optimizaci√≥n
    - Aprovechar la eficiencia de los sets para filtros de pertenencia en datasets grandes
- Uso del m√©todo isin()
    - Aplicar el m√©todo isin() para verificar si los valores de una columna est√°n presentes en una estructura externa
- Filtrado con diccionarios
    - Usar diccionarios como mapas de filtrado para condiciones m√°s complejas y transformaciones simult√°neas
- Combinaci√≥n de DataFrames para filtrado
    - Utilizar merge() y join() para filtrar un DataFrame bas√°ndose en los datos de otro DataFrame
- Filtrado con Series externas
    - Emplear Series de pandas como m√°scaras booleanas para filtrado avanzado

# üìã Listado completo de comandos utilizados:
### Importaci√≥n de librer√≠as:
- import pandas as pd - Importa la librer√≠a pandas para manipulaci√≥n de datos
- import numpy as np - Importa NumPy para operaciones con arrays

### Carga de datos:
- pd.read_csv() - Lee archivos CSV y carga los datos en un DataFrame

### M√©todos de filtrado con estructuras externas:
- .isin() - Verifica si los valores est√°n presentes en una lista, set o array
- .isin(lista) - Filtra usando una lista de Python
- .isin(set) - Filtra usando un set de Python para mayor eficiencia
- .isin(array) - Filtra usando un array de NumPy

### Operadores de negaci√≥n:
- ~ - Operador de negaci√≥n para invertir condiciones booleanas
- ~df['columna'].isin(lista) - Filtra valores que NO est√°n en la lista

### M√©todos de combinaci√≥n para filtrado:
- pd.merge() - Combina DataFrames y puede usarse para filtrado
- .merge(df2, on='columna') - Combina DataFrames en una columna com√∫n
- .merge(df2, how='inner') - Realiza inner join manteniendo solo coincidencias
- .merge(df2, how='left') - Realiza left join manteniendo todas las filas del DataFrame izquierdo

### M√©todos de join:
- .join() - Une DataFrames por sus √≠ndices
- .join(df2, how='inner') - Join interno manteniendo solo coincidencias de √≠ndices

### Creaci√≥n de estructuras de filtrado:
- list() - Crea listas de Python para filtrado
- set() - Crea sets de Python para filtrado eficiente
- dict() - Crea diccionarios para mapeo y filtrado

### M√©todos de conversi√≥n:
- .tolist() - Convierte Series o arrays a listas de Python
- .unique() - Obtiene valores √∫nicos para crear estructuras de filtrado
- .values - Obtiene los valores como array de NumPy

### Funci√≥n de salida:
- print() - Muestra los resultados del filtrado

In [None]:
# Ejemplos de uso mostrados:

# Filtrado con lista:
ciudades_objetivo = ['Madrid', 'Barcelona', 'Valencia']
df_filtrado = df[df['ciudad'].isin(ciudades_objetivo)]

# Filtrado con set para mejor rendimiento:
ids_validos = {1, 2, 3, 5, 8, 13}
df_filtrado = df[df['id'].isin(ids_validos)]

# Filtrado con negaci√≥n:
generos_excluir = ['Terror', 'Suspenso']
df_filtrado = df[~df['genero'].isin(generos_excluir)]

# Filtrado usando otro DataFrame:
df_clientes_vip = pd.DataFrame({'cliente_id': [101, 102, 105]})
df_filtrado = df.merge(df_clientes_vip, on='cliente_id', how='inner')

# Filtrado con diccionario:
categorias_validas = {'A': 'Premium', 'B': 'Standard', 'C': 'Basic'}
df_filtrado = df[df['categoria'].isin(categorias_validas.keys())]

# Filtrado con Series externa:
productos_populares = df_ventas.groupby('producto')['cantidad'].sum()
top_productos = productos_populares.nlargest(5).index
df_filtrado = df[df['producto'].isin(top_productos)]

# Combinaci√≥n con query():
regiones_objetivo = ['Norte', 'Sur']
df_filtrado = df.query("region in @regiones_objetivo and ventas > 1000")

### Conceptos clave cubiertos:
- Estructuras externas
- Listas, sets, diccionarios, arrays y otros DataFrames usados como criterios de filtrado
- M√©todo isin()
- Funci√≥n principal para verificar pertenencia de valores en estructuras externas
- Optimizaci√≥n con sets
- Usar sets en lugar de listas para mejorar rendimiento en filtros grandes
- Operador de negaci√≥n (~)
- Invertir condiciones de filtrado para excluir valores
- Merge para filtrado
- Usar combinaciones de DataFrames como t√©cnica de filtrado avanzada
- Variables externas en query()
- Referenciar estructuras externas usando @ en strings de consulta
- Filtrado din√°mico
- Crear filtros que cambian seg√∫n datos externos o c√°lculos previos
- Reutilizaci√≥n de criterios
- Definir una vez las estructuras de filtrado y reutilizarlas m√∫ltiples veces
- Eficiencia de memoria
- Considerar el tama√±o de las estructuras externas para optimizar el rendimiento
- Combinaci√≥n de condiciones
- Usar estructuras externas junto con otras condiciones l√≥gicas

## ü§î Pregunta para reflexionar:
¬øEn qu√© situaciones ser√≠a m√°s eficiente usar un set en lugar de una lista para filtrar un DataFrame con millones de registros, y c√≥mo determinar√≠as cu√°ndo es apropiado usar merge() versus isin() para filtrar bas√°ndose en datos de otro DataFrame?

# üìñ Resumen del cap√≠tulo: Filtrado por condiciones m√∫ltiples
Este cap√≠tulo introduce el filtrado avanzado de DataFrames usando m√∫ltiples condiciones simult√°neas, una t√©cnica esencial para an√°lisis de datos complejos y selecci√≥n precisa de registros. Se enfoca en:

- Operadores l√≥gicos para combinaci√≥n de condiciones
    - Utilizar operadores AND (&), OR (|) y NOT (~) para crear filtros complejos con m√∫ltiples criterios
- Filtrado con condiciones num√©ricas m√∫ltiples
    - Aplicar rangos, comparaciones y condiciones matem√°ticas combinadas para seleccionar datos espec√≠ficos
- Filtrado con condiciones categ√≥ricas m√∫ltiples
    - Combinar filtros de texto, categor√≠as y valores discretos usando operadores l√≥gicos
- Uso del m√©todo query() para condiciones complejas
    - Emplear query() con sintaxis SQL-like para escribir filtros m√∫ltiples de manera m√°s legible
- Agrupaci√≥n de condiciones con par√©ntesis
    - Controlar la precedencia de operadores usando par√©ntesis para crear l√≥gica de filtrado precisa
- Filtrado con variables externas
    - Referenciar variables Python en filtros usando el s√≠mbolo @ en query()

# üìã Listado completo de comandos utilizados:
### Importaci√≥n de librer√≠as:
- import pandas as pd - Importa la librer√≠a pandas para manipulaci√≥n de datos

### Carga de datos:
- pd.read_csv() - Lee archivos CSV y carga los datos en un DataFrame

### Operadores l√≥gicos para filtrado:
- & - Operador AND para combinar condiciones (ambas deben ser verdaderas)
- | - Operador OR para alternativas (al menos una debe ser verdadera)
- ~ - Operador NOT para negar condiciones (invierte True/False)

### Operadores de comparaci√≥n:
- == - Igual a
- != - Diferente de
- '> - Mayor que
- < - Menor que
- '>= - Mayor o igual que
- <= - Menor o igual que

### M√©todo query() para filtrado avanzado:
- .query() - Permite filtrado usando strings con sintaxis SQL-like
- .query("condicion1 and condicion2") - Combina condiciones con AND
- .query("condicion1 or condicion2") - Combina condiciones con OR
- .query("not condicion") - Niega una condici√≥n
- .query("@variable") - Referencia variables externas

### M√©todos de filtrado con texto:
- .str.contains() - Busca patrones de texto en columnas string
- .str.startswith() - Filtra strings que empiezan con un patr√≥n
- .str.endswith() - Filtra strings que terminan con un patr√≥n
- .isin() - Verifica si valores est√°n en una lista

### M√©todos de informaci√≥n:
- .shape - Muestra dimensiones del DataFrame filtrado
- .info() - Informaci√≥n general del DataFrame
- .describe() - Estad√≠sticas descriptivas de datos num√©ricos

### Funci√≥n de salida:
- print() - Muestra resultados del filtrado

In [None]:
# Ejemplos de uso mostrados:

# Filtrado con m√∫ltiples condiciones num√©ricas:
# Filtrar por edad y salario
df_filtrado = df[(df['edad'] >= 25) & (df['edad'] <= 65) & (df['salario'] > 50000)]

# Filtrado con condiciones categ√≥ricas m√∫ltiples:
# Filtrar por departamento y estado
df_filtrado = df[(df['departamento'] == 'Ventas') | (df['departamento'] == 'Marketing')] & (df['activo'] == True)

# Filtrado con negaci√≥n:
# Excluir ciertos valores
df_filtrado = df[~(df['categoria'] == 'Descontinuado') & (df['precio'] > 0)]

# Uso de query() con m√∫ltiples condiciones:
# Filtrado usando query() - m√°s legible
df_filtrado = df.query("edad >= 25 and edad <= 65 and salario > 50000")

# Filtrado con variables externas usando query():
edad_minima = 25
edad_maxima = 65
salario_minimo = 50000
df_filtrado = df.query("edad >= @edad_minima and edad <= @edad_maxima and salario > @salario_minimo")

# Filtrado con rangos usando between():
# Filtrar usando rangos
df_filtrado = df[df['fecha'].between('2020-01-01', '2020-12-31') & (df['ventas'] > 1000)]

# Combinaci√≥n de filtros de texto y num√©ricos:
# Filtrar productos espec√≠ficos con condiciones de precio
df_filtrado = df[(df['producto'].str.contains('iPhone')) & (df['precio'] >= 500) & (df['stock'] > 0)]

# Filtrado con m√∫ltiples valores usando isin():
# Filtrar m√∫ltiples categor√≠as con condici√≥n adicional
categorias = ['Electr√≥nicos', 'Ropa', 'Hogar']
df_filtrado = df[df['categoria'].isin(categorias) & (df['descuento'] > 0.1)]

### Conceptos clave cubiertos:
- Operadores bit a bit
- Usar &, |, ~ en lugar de and, or, not para operaciones con DataFrames
- Precedencia de operadores
- Importancia de usar par√©ntesis para controlar el orden de evaluaci√≥n
- Filtrado por rangos
- Combinar condiciones >= y <= para seleccionar valores dentro de un rango
- M√©todo query()
- Alternativa m√°s legible usando sintaxis similar a SQL para filtros complejos
- Variables externas en query()
- Usar @ para referenciar variables Python dentro de strings de consulta
- Combinaci√≥n de tipos de datos
- Filtrar simult√°neamente por columnas num√©ricas, categ√≥ricas y de texto
- Negaci√≥n de condiciones
- Usar ~ para excluir registros que cumplan ciertas condiciones
- Filtros din√°micos
- Crear filtros que cambien seg√∫n variables definidas externamente
- Optimizaci√≥n de consultas
- Escribir filtros eficientes que minimicen el procesamiento de datos
- Legibilidad del c√≥digo
- Elegir entre sintaxis de corchetes o query() seg√∫n la complejidad del filtro

## ü§î Pregunta para reflexionar:
¬øEn qu√© situaciones ser√≠a m√°s apropiado usar el m√©todo query() en lugar de la sintaxis tradicional con corchetes y operadores bit a bit, y c√≥mo determinar√≠as la mejor estrategia para combinar m√∫ltiples condiciones cuando trabajas con datasets de gran tama√±o?

# üìñ Resumen del cap√≠tulo: Reemplazo de valores con where()
Este cap√≠tulo introduce el m√©todo where() de pandas, una herramienta poderosa para el reemplazo condicional de valores en DataFrames y Series. Se enfoca en:

- Reemplazo condicional b√°sico
    - Utilizar where() para mantener valores que cumplen una condici√≥n y reemplazar los que no la cumplen
- Combinaci√≥n con condiciones m√∫ltiples
    - Aplicar where() con operadores l√≥gicos para crear transformaciones complejas basadas en m√∫ltiples criterios
- Reemplazo con valores calculados
    - Usar where() para reemplazar valores con c√°lculos din√°micos o valores derivados de otras columnas
- Preservaci√≥n selectiva de datos
    - Mantener valores originales cuando cumplen condiciones espec√≠ficas y modificar solo los que requieren cambios
- Transformaci√≥n de columnas completas
    - Aplicar where() a columnas enteras para crear nuevas versiones transformadas de los datos
- Manejo de valores faltantes
    - Usar where() en combinaci√≥n con estrategias para manejar NaN y valores nulos durante el reemplazo

# üìã Listado completo de comandos utilizados:
### Importaci√≥n de librer√≠as:
- import pandas as pd - Importa la librer√≠a pandas para manipulaci√≥n de datos
- import numpy as np - Importa NumPy para operaciones num√©ricas y manejo de NaN

### Carga de datos:
- pd.read_csv() - Lee archivos CSV y carga los datos en un DataFrame

### M√©todo where() principal:
- .where() - Reemplaza valores que no cumplen una condici√≥n
- .where(condicion) - Mantiene valores donde la condici√≥n es True, reemplaza con NaN donde es False
- .where(condicion, otro_valor) - Mantiene valores donde la condici√≥n es True, reemplaza con otro_valor donde es False
- .where(condicion, other=valor) - Sintaxis alternativa usando el par√°metro other

### Operadores de comparaci√≥n para condiciones:
- == - Igual a
- != - Diferente de
- '> - Mayor que
- < - Menor que
- '>= - Mayor o igual que
- <= - Menor o igual que

### Operadores l√≥gicos:
- & - AND l√≥gico para combinar condiciones
- | - OR l√≥gico para alternativas
- ~ - NOT l√≥gico para negar condiciones

### M√©todos complementarios:
- .mask() - M√©todo inverso a where() (reemplaza donde la condici√≥n es True)
- .fillna() - Rellena valores NaN resultantes de where()
- .isna() - Identifica valores faltantes
- .notna() - Identifica valores no faltantes

### Funciones de NumPy:
- np.nan - Representa valores faltantes
- np.where() - Versi√≥n de NumPy para arrays (alternativa)

### M√©todos de informaci√≥n:
- .shape - Dimensiones del DataFrame
- .info() - Informaci√≥n general del DataFrame
- .describe() - Estad√≠sticas descriptivas

### Funci√≥n de salida:
- print() - Muestra resultados de las transformaciones

In [None]:
# Ejemplos de uso mostrados:

# Reemplazo b√°sico con where():
# Mantener valores mayores a 100, reemplazar otros con 0
df['ventas_ajustadas'] = df['ventas'].where(df['ventas'] > 100, 0)

# Reemplazo con condiciones m√∫ltiples:
# Mantener valores en rango espec√≠fico
df['precio_valido'] = df['precio'].where((df['precio'] >= 10) & (df['precio'] <= 1000), np.nan)

# Reemplazo con valores calculados:
# Reemplazar valores negativos con el promedio de la columna
promedio = df['balance'].mean()
df['balance_corregido'] = df['balance'].where(df['balance'] >= 0, promedio)

# Uso de mask() como alternativa:
# mask() es el inverso de where()
df['descuento_aplicado'] = df['descuento'].mask(df['descuento'] > 0.5, 0.5)

# Reemplazo basado en otra columna:
# Reemplazar precios seg√∫n categor√≠a
df['precio_final'] = df['precio'].where(df['categoria'] != 'Premium', df['precio'] * 1.2)

# Combinaci√≥n con fillna():
# Usar where() y luego rellenar NaN
df['edad_valida'] = df['edad'].where(df['edad'] <= 100).fillna(df['edad'].median())

# Reemplazo con strings:
# Reemplazar valores de texto seg√∫n condici√≥n
df['estado_cliente'] = df['estado'].where(df['compras'] > 5, 'Inactivo')

# Uso de np.where() como alternativa:
# Usando NumPy where para mayor flexibilidad
df['categoria_edad'] = np.where(df['edad'] < 30, 'Joven', 
                       np.where(df['edad'] < 60, 'Adulto', 'Senior'))

### Conceptos clave cubiertos:
- Reemplazo condicional
- Mantener valores que cumplen condiciones y reemplazar los que no
- M√©todo where()
- Funci√≥n principal para reemplazo condicional en pandas
- M√©todo mask()
- Funci√≥n inversa a where() que reemplaza donde la condici√≥n es True
- Par√°metro other
- Valor de reemplazo cuando la condici√≥n es False
- Preservaci√≥n selectiva
- Mantener datos originales solo cuando cumplen criterios espec√≠ficos
- Valores por defecto
- Usar NaN como valor predeterminado cuando no se especifica reemplazo
- Condiciones complejas
- Combinar m√∫ltiples criterios usando operadores l√≥gicos
- Transformaci√≥n in-place
- Aplicar cambios directamente a columnas existentes o crear nuevas
- Compatibilidad con NumPy
- Usar np.where() para casos m√°s complejos con m√∫ltiples condiciones
- Manejo de tipos de datos
- Considerar la compatibilidad de tipos entre valores originales y de reemplazo
- Cadena de transformaciones
- Combinar where() con otros m√©todos como fillna() para flujos completos
- Eficiencia de memoria
- Optimizar el uso de where() para datasets grandes

## ü§î Pregunta para reflexionar:
¬øEn qu√© situaciones ser√≠a m√°s apropiado usar where() versus mask(), y c√≥mo determinar√≠as la mejor estrategia para manejar los valores NaN que pueden resultar del uso de where() sin especificar un valor de reemplazo?