## 📘 Domina tus datos con Pandas: Fundamentos esenciales para todo Analista 🐼

---

👨‍💻 Autor: Brayan Neciosup  
📍 Portafolio: [brayanneciosup](https://bryanneciosup626.wixsite.com/brayandataanalitics)  
🔗 LinkedIn: [linkedin.com/brayanneciosup](https://www.linkedin.com/in/brayan-rafael-neciosup-bola%C3%B1os-407a59246/)  
💻 GitHub: [github.com/BrayanR03](https://github.com/BrayanR03)  
📚 Serie: Fundamentos de Pandas y Polars


In [1]:
# Instalar librería: pip install pandas
# Importamos la librería
import pandas as pd

### 📌 Manipulación de Datos en Pandas: ...

La manipulación de datos, también conocida como data wrangling, es una fase 
fundamental en todo proyecto de análisis de datos. Consiste en transformar 
un dataset crudo, es decir, datos en su forma original, posiblemente desordenada o
incompleta en un formato estructurado y útil, como un DataFrame.

#### Fase 1. Fuentes de Datos 🗃️

"""
    Pandas 🐼 permite leer datos desde múltiples fuentes como archivos CSV, Excel, JSON, 
    bases de datos SQL, entre otros formatos comunes. Esta flexibilidad facilita el trabajo
    con datasets provenientes de distintos orígenes, tanto locales como remotos.
"""

In [2]:
# Paso A). DEFINIR LA CARPETA ORIGEN DE DONDE PROVIENE NUESTROS DATASETS (LOCAL)
"""
    📝 SINTAXIS: 
        
        carpeta_origen = "RutaCarpetaOrigen"
    
    ### 🧠 Va a depender en que entorno nos encontremos porque las rutas 
    ###     de carpetas pueden ser (\) o (/).
"""
# 💡 EJEMPLO 1 (Ruta completa):

# carpeta_origen = "C:/Users/USER/Documents/FundamentosPandasPolars/datasets" 

# print(carpeta_origen)

# 💡 EJEMPLO 2 (Ruta relativa):

carpeta_origen = f"../datasets/"
# print(carpeta_origen)
import os # ⬅️ Permite trabajar con archivos
print(os.listdir(carpeta_origen)) # ⬅️ Mostrar los archivos de la carpeta

['eventos_logs.json', 'json_basico.json', 'Pedidos.xlsx', 'penguins.csv', 'titanic.csv']


In [3]:
# Paso B). DEFINIR EL NOMBRE DEL ARCHIVO DEL DATASET
"""
    📝 SINTAXIS:
    
        nombre_archivo = "NombreArchivo.extension"

    ### 🧠 Dependerá de la extensión del archivo para indicarle a Pandas que función utilizar.
"""
# 💡 EJEMPLO 1 (.csv): 
archivos_csv = "penguins.csv"

# 💡 EJEMPLO 2 (.xlsx): 
archivos_xlsx = "Pedidos.xlsx"

# 💡 EJEMPLO 3 (.json): 
archivos_json = "eventos_logs.json"


In [4]:
# Paso C). LECTURA DE LOS ARCHIVOS (PASO A + PASO B)
"""
    ### 🧠 Para los archivos .csv, se recomienda conocer el separador o
    ###     delimitador presente en el archivo e indicarle a Pandas.

    📝 SINTAXIS:
    
        dataset_nombre = pd.read_extensión(carpeta_origen+nombre_archivo.extensión)
"""
import pandas as pd # ✅ No olvidar importar pandas al inicio del notebook

# 💡 EJEMPLO 1 (Lectura de .csv): 

dataset_csv = pd.read_csv(carpeta_origen+archivos_csv,sep=",") # ⬅️ Indicamos el delimitador en sep.
# dataset_csv.head() # ⬅️ Función que permite leer y retornar los 5 primeros registros del archivo.
"""==============================================================================================="""
# 💡 EJEMPLO 2 (Lectura de .xlsx): 

dataset_excel = pd.read_excel(
                 io=carpeta_origen+archivos_xlsx,
                 sheet_name="Hoja1") # ⬅️ Indicamos el nombre de la Hoja donde se encuentra
                                     #     la información.
# dataset_excel.head() # ⬅️ Función que permite leer y retornar los 5 primeros registros del archivo.

""" ⚠️ En caso les arroje error sobre No module named 'openpyxl
       solo instalemos el módulo con: pip install openpyxl
'"""
# dataset_excel.head() # ⬅️ Función que permite leer y retornar los 5 primeros registros del archivo.
"""==============================================================================================="""
# 💡 EJEMPLO 3 (Lectura de .json):

### Archivo básico JSON
archivo_json_basico = "json_basico.json" # ⬅️ Nombre de archivo básico JSON
dataset_json1 = pd.read_json(carpeta_origen+archivo_json_basico) # ⬅️ Lectura de JSON básico
# dataset_json1.head()

### Archivo complejo JSON
import json # ⬅️ Utilizaremos la librería json para el aplanamiento del Archivo JSON complejo.
archivo_json_complejo = "eventos_logs.json" # ⬅️ Nombre de archivo complejo JSON
with open(carpeta_origen + archivo_json_complejo, "r", encoding="utf-8") as file_data:
    data_archivo_json_complejo = json.load(file_data)
dataset_json2 = pd.json_normalize(data_archivo_json_complejo) # ⬅️ Lectura de archivo JSON complejo.
dataset_json2.head() # ⬅️ Función que permite leer y retornar los 5 primeros registros del archivo.


Unnamed: 0,evento.usuario_id,evento.accion,evento.timestamp
0,U846,compra,2025-05-25T21:07:47.202219Z
1,U321,registro,2025-05-23T11:50:47.202219Z
2,U813,login,2025-05-25T19:09:47.202219Z
3,U677,registro,2025-05-27T09:41:47.202219Z
4,U425,compra,2025-05-23T14:44:47.202219Z


#### 1.5 Fuentes de Datos - Seaborn

Antes de continuar con las siguientes fases de manipulación de datos, es importante
presentar una segunda librería muy utilizada en el análisis exploratorio y 
visualización de datos: **Seaborn**. Aunque Seaborn fue diseñada principalmente para
crear visualizaciones estadísticas, también incluye una colección de **datasets**,
que resultan muy útiles para practicar técnicas de manipulación de datos con Pandas.

🔧 Instalación y uso de Seaborn 

Para utilizar Seaborn en nuestro entorno de trabajo, sigue estos pasos:

a) Instalación en la terminal (si no la tienes instalada): pip install seaborn

b) Importación de la librería: import seaborn as sns

In [2]:
"""
    Mediante su función .load_dataset(NombreDelDataset), permite traer datasets almacenados
    internamente desntro de Seaborn y automáticamente se convierten en un Dataframe de Pandas.
    
    📝 SINTAXIS:

        dataframe_nombre = sns.load_dataset(NombreDataset) ⬅️ Entre comillas podemos instanciar al dataset.
        
        ### ➡️ Estos son los datasets más utilizados: penguins,titanic, flights, iris, tips, diamonds.
        ### ➡️ Si deseas conocer todos los datasets, usa la siguiente función: sns.get_dataset_names()
"""
import seaborn as sns # ⬅️  Primordial Importar la librería.
# 💡 Traer los nombres de todos los datasets de Seaborn:
# sns.get_dataset_names() # ⬅️ Devuelve una lista con los nombres de todos sus datasets.

# 💡 Lectura de dataset titanic:
df_titanic = sns.load_dataset("titanic")
# df_titanic.head()

# 💡 Lectura de dataset penguins:
df_penguins = sns.load_dataset("penguins")
df_penguins.head()

# 💡 Lectura de dataset iris:
df_iris = sns.load_dataset("iris")
# df_iris.head()

# 💡 Lectura de dataset flights:
df_flights = sns.load_dataset("flights")
df_flights.head()

Unnamed: 0,year,month,passengers
0,1949,Jan,112
1,1949,Feb,118
2,1949,Mar,132
3,1949,Apr,129
4,1949,May,121


#### Fase 2. Exploración Inicial 🔍

In [6]:
"""
    Utilizaremos el dataset de penguins (dataset de Seaborn importado en un csv)
"""
df_penguins = pd.read_csv("../datasets/penguins.csv",sep=",") # ⬅️ Accedemos al archivo en la carpeta datasets
df_penguins.head()

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex
0,Adelie,Torgersen,39.1,18.7,181.0,3750.0,Male
1,Adelie,Torgersen,39.5,17.4,186.0,3800.0,Female
2,Adelie,Torgersen,40.3,18.0,195.0,3250.0,Female
3,Adelie,Torgersen,,,,,
4,Adelie,Torgersen,36.7,19.3,193.0,3450.0,Female


In [7]:
"""
    A). Quitar encabezados originales provenientes del Dataset.
    
        📝 SINTAXIS:
        
            dataset_nombre = pl.read_extension(ruta_carpeta_archivo,sep="Delimitador",header=None|Omitir)
            
            💡 Importante: header, es el parámetro que si establecemos en None, los encabezados se vuelven parte
                           de los registros del dataset, agregandole la posición de cada columna como nuevo encabezado.
                                        
            ### 🧠 Tener en cuenta que solo se aplicará a las extensiones .excel y .csv
    
#### PARA LOS EJEMPLOS USAREMOS ALGUNOS DATASET PREVIAMENTE VISTOS EN LA FASE 1.
"""

# 💡 EJEMPLO 1: Archivo CSV 

df_penguins = pd.read_csv(carpeta_origen+archivos_csv,sep=",",header=None) #⬅️ Ocultamos los encabezados
# df_penguins.head()

# 💡 EJEMPLO 2: Archivo CSV

df_penguins = pd.read_csv(carpeta_origen+archivos_csv,sep=",") #⬅️ Mostramos los encabezados
# df_penguins.head()

# # 💡 EJEMPLO 3: Archivo EXCEL 

df_penguins_excel = pd.read_excel(carpeta_origen+archivos_xlsx,sheet_name="Hoja1",header=None) #⬅️ Ocultamos los encabezados
# df_penguins_excel.head()

# # 💡 EJEMPLO 4: Archivo EXCEL

df_penguins_excel = pd.read_excel(carpeta_origen+archivos_xlsx,sheet_name="Hoja1") #⬅️ Mostramos los encabezados
df_penguins_excel.head()

Unnamed: 0,DetallePedidosPedidoID,PedidoFechaHoraRegistro,PedidoEstado,Total
0,1,2025-05-26 18:02:01.240,F,524361.11
1,2,2025-05-26 18:02:02.430,F,524387.46
2,3,2025-05-26 18:02:46.287,F,515269.86
3,4,2025-05-26 18:02:46.290,F,523261.27
4,5,2025-05-26 18:02:46.290,F,532688.61


In [8]:
"""
    B). Mostrar los N primeros registros de un dataset
    
        📝 SINTAXIS:
    
            dataset_nombre.head(NúmeroDeRegistros) ⬅️ Indicamos un número para la cantidad de registros a mostrar    
"""
# 💡 EJEMPO 1: 

# df_penguins.head(5) ## ⬅️ Mostrar 5 primeros registros del dataset

# 💡 EJEMPO 2: 

df_penguins.head(10) ## ⬅️ Mostrar 10 primeros registros del dataset

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex
0,Adelie,Torgersen,39.1,18.7,181.0,3750.0,Male
1,Adelie,Torgersen,39.5,17.4,186.0,3800.0,Female
2,Adelie,Torgersen,40.3,18.0,195.0,3250.0,Female
3,Adelie,Torgersen,,,,,
4,Adelie,Torgersen,36.7,19.3,193.0,3450.0,Female
5,Adelie,Torgersen,39.3,20.6,190.0,3650.0,Male
6,Adelie,Torgersen,38.9,17.8,181.0,3625.0,Female
7,Adelie,Torgersen,39.2,19.6,195.0,4675.0,Male
8,Adelie,Torgersen,34.1,18.1,193.0,3475.0,
9,Adelie,Torgersen,42.0,20.2,190.0,4250.0,


In [10]:
"""
    C). Mostrar los N últimos registros de un dataset
    
        📝 SINTAXIS:
    
            dataset_nombre.tail(NúmeroDeRegistros) ⬅️ Indicamos un número para la cantidad de registros a mostrar    
"""
# 💡 EJEMPO 1: 

# df_penguins.tail(5) ## ⬅️ Mostrar 5 últimos registros del dataset

# 💡 EJEMPO 2: 

df_penguins.tail(10) ## ⬅️ Mostrar 10 últimos registros del dataset

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex
334,Gentoo,Biscoe,46.2,14.1,217.0,4375.0,Female
335,Gentoo,Biscoe,55.1,16.0,230.0,5850.0,Male
336,Gentoo,Biscoe,44.5,15.7,217.0,4875.0,
337,Gentoo,Biscoe,48.8,16.2,222.0,6000.0,Male
338,Gentoo,Biscoe,47.2,13.7,214.0,4925.0,Female
339,Gentoo,Biscoe,,,,,
340,Gentoo,Biscoe,46.8,14.3,215.0,4850.0,Female
341,Gentoo,Biscoe,50.4,15.7,222.0,5750.0,Male
342,Gentoo,Biscoe,45.2,14.8,212.0,5200.0,Female
343,Gentoo,Biscoe,49.9,16.1,213.0,5400.0,Male


In [11]:
"""
    D). Mostrar el volúmen del dataset (Cantidad de filas y columnas respectivamente) 
    
        📝 SINTAXIS:
    
            dataset_nombre.shape ⬅️ Nos muestra la cantidad de filas y columnas en forma de tupla (,)
            
            #### 🧠 Podemos acceder a la cantidad de filas o columnas basándonos en la posición
                     de los datos que retorna la tupla, gracias a .shape ➡️ 0 = filas y 1 = columnas    
"""
# 💡 EJEMPO 1: 

df_penguins.shape ## ⬅️ Muestra el volúmen de registros del dataset en forma de tupla. (CantidadFilas,CantidadColumnas)

# 💡 EJEMPO 2: 

df_penguins.shape[0] ## ⬅️ Muestra la cantidad de registros (filas) del dataset

# 💡 EJEMPO 3: 

df_penguins.shape[1] ## ⬅️ Muestra la cantidad de columnas del dataset


7

#### Fase 3. Transformación de Datos 💱

##### 3.1 Datos Cualitativos 🔠

In [None]:
"""
    A). CONVERTIR A MAYÚSCULAS LOS DATOS CUALITATIVOS DE UNA COLUMNA EN UN DATASET
    
    📝 SINTAXIS:
    
        dataset_nombre[NombreColumnaCualitativa].str.upper()
    
    ### 🧠 En este caso, debemos almacenar en una variable los cambios a realizar en el dataframe
"""

# 💡 EJEMPLO:

df_penguins["species"] = df_penguins["species"].str.upper() ## ⬅️ Convertimos a mayúsculas los datos de la columna cualitativa ""species""
df_penguins.head()



Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex
0,ADELIE,Torgersen,39.1,18.7,181.0,3750.0,Male
1,ADELIE,Torgersen,39.5,17.4,186.0,3800.0,Female
2,ADELIE,Torgersen,40.3,18.0,195.0,3250.0,Female
3,ADELIE,Torgersen,,,,,
4,ADELIE,Torgersen,36.7,19.3,193.0,3450.0,Female


In [None]:
"""
    B). CONVERTIR A MINÚSCULAS LOS DATOS CUALITATIVOS DE UNA COLUMNA EN UN DATASET
    
    📝 SINTAXIS:
    
        dataset_nombre[NombreColumnaCualitativa].str.lower()
    
    ### 🧠 En este caso, debemos almacenar en una variable los cambios a realizar en el dataframe
"""

# 💡 EJEMPLO:

df_penguins["species"] = df_penguins["species"].str.lower() ## ⬅️ Convertimos a minúsculas los datos de la columna cualitativa ""species""
df_penguins.head()



Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex
0,adelie,Torgersen,39.1,18.7,181.0,3750.0,Male
1,adelie,Torgersen,39.5,17.4,186.0,3800.0,Female
2,adelie,Torgersen,40.3,18.0,195.0,3250.0,Female
3,adelie,Torgersen,,,,,
4,adelie,Torgersen,36.7,19.3,193.0,3450.0,Female


In [None]:
"""
    C). CONVERTIR A MAYÚSCULA LA PRIMERA LETRA DE CADA DATO CUALITATIVOS DE UNA COLUMNA EN UN DATASET
    
    📝 SINTAXIS:
    
        dataset_nombre[NombreColumnaCualitativa].str.title()
    
    ### 🧠 En este caso, debemos almacenar en una variable los cambios a realizar en el dataframe
"""

# 💡 EJEMPLO:

df_penguins["species"] = df_penguins["species"].str.title() ## ⬅️ Convertimos la primera letra en mayúscula de cada dato en la columna cualitativa ""species""
df_penguins.head()



Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex
0,Adelie,Torgersen,39.1,18.7,181.0,3750.0,Male
1,Adelie,Torgersen,39.5,17.4,186.0,3800.0,Female
2,Adelie,Torgersen,40.3,18.0,195.0,3250.0,Female
3,Adelie,Torgersen,,,,,
4,Adelie,Torgersen,36.7,19.3,193.0,3450.0,Female


In [None]:
"""
    D). EXTRAER DE CADA DATO CUALITATIVO UNA CADENA EN ESPECÍFICO MEDIANTE >>EXPRESIONES REGULARES<< EN UN DATASET
    
    📝 SINTAXIS:
    
        dataset_nombre[NombreColumnaCualitativa].str.extract()
    
    ### 🧠 En este caso, debemos almacenar en una variable los cambios a realizar en el dataframe
"""
##💡 EJEMPLO 1: ⬅️ Extraemos primera letra en mayúscula 
df_penguins["PrimeraLetraEnMayúscula"] = df_penguins["species"].str.extract(r'([A-Z])')
# df_penguins.head()

##💡 EJEMPLO 2: ⬅️ Extraemos primera letra en minúscula
df_penguins["PrimeraLetraEnMinúscula"] = df_penguins["species"].str.extract(r'([a-z])')
# df_penguins.head()

##💡 EJEMPLO 3: ⬅️ Retornamos todo después de una letra en mayúscula
df_penguins["TodoDespuesDeUnaMayúscula"] = df_penguins["species"].str.extract(r'[A-Z](.*)')
# df_penguins.head()

##💡 EJEMPLO 4: ⬅️ Retornamos todo después de una letra en minúscula
df_penguins["TodoDespuesDeUnaMinúscula"] = df_penguins["species"].str.extract(r'[a-z](.*)')
df_penguins.head()

##💡 EJEMPLO 5: ⬅️ Retornamos todo después de un número
df_penguins["TodoDespuesDeUnNúmero"] = df_penguins["species"].str.extract(r'[0-9](.*)')
df_penguins.head()

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex,PrimeraLetraEnMayúscula,PrimeraLetraEnMinúscula,TodasLasLetraEnMayúscula,TodaUnaCadenaDespuesDeUnaMayúscula,TodoDespuesDeUnaMayúscula,TodoDespuesDeUnaMinúscula,TodoDespuesDeUnNúmero
0,Adelie,Torgersen,39.1,18.7,181.0,3750.0,Male,A,d,A,delie,delie,elie,
1,Adelie,Torgersen,39.5,17.4,186.0,3800.0,Female,A,d,A,delie,delie,elie,
2,Adelie,Torgersen,40.3,18.0,195.0,3250.0,Female,A,d,A,delie,delie,elie,
3,Adelie,Torgersen,,,,,,A,d,A,delie,delie,elie,
4,Adelie,Torgersen,36.7,19.3,193.0,3450.0,Female,A,d,A,delie,delie,elie,


In [62]:
"""
    E). REEMPLAZAR VALORES DE DATOS CUALITATIVOS MEDIANTE >>EXPRESIONES REGULARES<< EN UN DATASET
    
    📝 SINTAXIS:
    
        dataset_nombre[NombreColumnaCualitativa].str.replace(pat=PatrónExpresiónRegular,repl=CadenaAReemplazar,regex=True)
    
    ### 🧠 En este caso, debemos almacenar en una variable los cambios a realizar en el dataframe
"""
### DATASET DE PRUEBA PARA ESTE EJEMPLO
datos_sucios = {
    "nombre": [
        "  JUAN  pérez  ", 
        "MARÍA@@LÓPEZ", 
        "Ana--Martínez", 
        "carlos_rodríguez ", 
        "Sofía123 García"
    ],
    "categoria_producto": [
        "ELECTRÓNICA#1", 
        "ropa--Mujer", 
        "hogar_y_DECORACIÓN", 
        "LIBROS@@", 
        "Juguetes  niños"
    ],
    "codigo": [
        "ID-0001", 
        "ID-0023", 
        "CL-1234", 
        "ID-abc123", 
        "id-9999"
    ]
}
## Dataset de prueba (sucio)
df_test = pd.DataFrame(datos_sucios)
# df_test.head()

## Dataset de prueba (limpio)
df_test_clean = df_test.copy() 

## 💡 EJEMPLO 1: ⬅️ Eliminar caractéres especiales (@@,#,--,_)
df_test_clean["categoria_producto"] = df_test_clean["categoria_producto"].str.replace(pat=r'[^A-Za-z0-9ÁÉÍÓÚáéíóúÑñÜü]',repl=' ',regex=True)
df_test_clean["nombre"] = df_test_clean["nombre"].str.replace(pat=r'[^A-Za-zÁÉÍÓÚáéíóúÑñÜü]',repl=' ',regex=True)
# df_test_clean.head()

## 💡 EJEMPLO 2: ⬅️ Normalizar espacios (Varios espacios en blanco a uno solo)
df_test_clean["categoria_producto"] = df_test_clean["categoria_producto"].str.replace(pat=r'\s+',repl=' ',regex=True)
df_test_clean["nombre"] = df_test_clean["nombre"].str.replace(pat=r'\s+',repl=' ',regex=True)
# df_test_clean.head()

## 💡 EJEMPLO 3: ⬅️ Reemplazar guiones por espacios en blanco
df_test_clean["nombre"] = df_test_clean["nombre"].str.replace(pat=r'[-_]',repl=' ',regex=True)
# df_test_clean.head()

## 💡 EJEMPLO 4: ⬅️ Eliminar prefijos (ID- || CL- || id- || Letras)
df_test_clean["codigo"] = df_test_clean["codigo"].str.replace(pat=r'^ID-',repl='',regex=True)
df_test_clean["codigo"] = df_test_clean["codigo"].str.replace(pat=r'^id-',repl='',regex=True)
df_test_clean["codigo"] = df_test_clean["codigo"].str.replace(pat=r'^CL-',repl='',regex=True)
df_test_clean["codigo"] = df_test_clean["codigo"].str.replace(pat=r'[A-Za-z]',repl='',regex=True)
df_test_clean.head()


#### 💡 EJEMPLO 6: ⬅️ Eliminar número en caso no necesitemos
#### df_test_clean["codigo"] = df_test_clean["codigo"].str.replace(pat=r'([0-9])',repl='',regex=True)
#### df_test_clean.head()


Unnamed: 0,nombre,categoria_producto,codigo
0,JUAN pérez,ELECTRÓNICA 1,1
1,MARÍA LÓPEZ,ropa Mujer,23
2,Ana Martínez,hogar y DECORACIÓN,1234
3,carlos rodríguez,LIBROS,123
4,Sofía García,Juguetes niños,9999


##### 3.2 Datos Cuantitativos 🔢

In [2]:
import seaborn as sns  ##💡 Utilizaremos la librería Seaborn para obtener datasets de prueba.

df_penguins = sns.load_dataset("penguins") ## ⬅️ Para este ejemplo utilizaremos el dataset de """penguins"""
df_penguins.head()

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex
0,Adelie,Torgersen,39.1,18.7,181.0,3750.0,Male
1,Adelie,Torgersen,39.5,17.4,186.0,3800.0,Female
2,Adelie,Torgersen,40.3,18.0,195.0,3250.0,Female
3,Adelie,Torgersen,,,,,
4,Adelie,Torgersen,36.7,19.3,193.0,3450.0,Female


In [8]:
"""
    A). EXPLORACIÓN BÁSICA Y RESUMEN ESTADÍSTICO
        
        📝 Para los datos cuantitativos podemos obtener su estadística básica
            mediante .decribe() el cuál retornará el valor de las columnas float o int.
"""
df_penguins.describe()                  ## ⬅️ Estadística simple - Todas las columnas (int/float)
df_penguins[["body_mass_g"]].describe() ## ⬅️ Estadística simple - Columna body_mass_g
df_penguins[["body_mass_g"]].mean()     ## ⬅️ Media estadística - Columna body_mass_g
df_penguins[["body_mass_g"]].median()   ## ⬅️ Mediana estadística - Columna body_mass_g
df_penguins[["body_mass_g"]].min()      ## ⬅️ Valor mínimo - Columna body_mass_g
df_penguins[["body_mass_g"]].max()      ## ⬅️ Valor máximo - Columna body_mass_g
df_penguins[["body_mass_g"]].sum()      ## ⬅️ Suma total - Columna body_mass_g
df_penguins[["body_mass_g"]].std()      ## ⬅️ Desviación estándar - Columna body_mass_g
df_penguins[["body_mass_g"]].var()      ## ⬅️ Varianza - Columna body_mass_g



body_mass_g    643131.077327
dtype: float64

In [22]:
"""
    B). VERIFICAR VALORES NULOS EN LA(S) COLUMNA(AS) DEL DATASET
        
        🗒️SINTAXIS:
    
        dataset_nombre.isnull().sum() ⬅️ Para todo el dataset.
        dataset_nombre[NombreColumna].isnull().sum() ⬅️ A nivel de columna
"""

## 💡 EJEMPLO 1: VERIFICAR CANTIDAD DE VALORES NULOS EN TODAS LAS COLUMNAS DEL DATASET
df_penguins.isnull().sum() ##⬅️ Retornará una serie de Pandas.

## 💡 EJEMPLO 2: VERIFICAR CANTIDAD DE VALORES NULOS EN UNA COLUMNA ESPECÍFICA DEL DATASET
df_penguins["body_mass_g"].isnull().sum() ##⬅️ Retornará la cantidad de datos nulos de una columna.


np.int64(2)

In [20]:
"""
    C). FILTRANDO VALORES EN COLUMNAS CUANTITATIVAS
"""

# df_penguins.shape[0] ## ⬅️ Cantidad de datos del dataset : 344

## 💡 EJEMPLO 1: FILTRAR VALORES DE COLUMNA "body_mass_g" MAYOR A 3000
df_penguins_bmg_mayor_3000 = df_penguins.query('body_mass_g>3000')
# df_penguins_bmg_mayor_3000.head()
df_penguins_bmg_mayor_3000.shape[0] ## ⬅️ Cantidad de datos resultantes : 331

## 💡 EJEMPLO 2: FILTRAR VALORES DE COLUMNA "body_mass_g" ENTRE 1000 y 3000
df_penguins_bmg_entre_1000_3000 = df_penguins.query('body_mass_g>=1000 & body_mass_g<=3000')
# df_penguins_bmg_entre_1000_3000.head()
df_penguins_bmg_entre_1000_3000.shape[0] ## ⬅️ Cantidad de datos resultantes : 11

## 💡 EJEMPLO 3: FILTRAR VALORES NULOS EN COLUMNA "body_mass_g"
df_penguins_nulos_body_mass_g = df_penguins[(df_penguins["body_mass_g"].isnull())]
# df_penguins_nulos_body_mass_g.head()
# df_penguins_nulos_body_mass_g.shape[0] ## ⬅️ Cantidad de datos resultantes : 2

## 💡 EJEMPLO 4: FILTRAR VALORES NO NULOS EN COLUMNA "body_mass_g"
df_penguins_no_nulos_body_mass_g = df_penguins[(df_penguins["body_mass_g"].notnull())]
# df_penguins_no_nulos_body_mass_g.head()
df_penguins_no_nulos_body_mass_g.shape[0] ## ⬅️ Cantidad de datos resultantes : 342


342

In [27]:
"""
    D). RELLENANDO DATOS Null Y NaN DE LAS COLUMNAS DE UN DATASET
    
        ### 🧠EXISTE UNA SIMILITUDAD ENTRE DATOS NaN Y Null DEBIDO QUE AMBOS SON
               TRATADOS COMO VALORES FALTANTES INTERNAMENTE POR PANDAS Y SON CONSIDERADOS
               EQUIVALENTES A EFECTOS DE ANÁLISIS Y LIMPIEZA.
"""

"""======================================================================================
    📝 RELLENANDO DATOS Null Y NaN

        🗒️SINTAXIS:
        
            dataset_nombre.fillna(value={NombreColumna:ValorARellenar},inplace=True||False,axis=0) ⬅️ A nivel de columna
            dataset_nombre.fillna(value=ValorARellenar,inplace=True||False,axis=0) ⬅️ Para todo el dataset.
            
            ### 🧠 Tengamos en cuenta que debemos almacenar estos cambios en una nueva variable.
"""
## 💡 EJEMPLO 1: LLENADO TODOS LOS DATOS NULOS DE UNA COLUMNA EN ESPECÍFICO
# df_penguins.fillna(value={"body_mass_g":0},inplace=True,axis=0) ## ⬅️ Rellenaremos con Cero.
# df_penguins["body_mass_g"].isnull().sum() ## ✅ Datos nulos reemplazados

## 💡 EJEMPLO 2: LLENADO TODOS LOS DATOS NULOS DEL DATASET COMPLETO.
df_penguins.fillna(value=0,inplace=True,axis=0) ## ⬅️ Rellenaremos con Cero.
df_penguins.isnull().sum() ## ✅ Datos nulos reemplazados


species              0
island               0
bill_length_mm       0
bill_depth_mm        0
flipper_length_mm    0
body_mass_g          0
sex                  0
dtype: int64

#### Fase 4. Agrupamiento de Datos ♾️

"""El agrupamiento de la información nos brinda el resumen de la información proveniente 
de un dataset, logrando econtrar ciertos patrones en cada grupo de información."""

In [None]:
"""
📝 SINTAXIS:

dataset_nombre_agrupado = 
    dataset_nombre.groupby(by=["NombreColumna1","NombreColumnaN],as_index=False,observed=True)["NombreColumnaAgregada"]
                  .funcionAgregada().rename({"nombre_columna_generada_de_agrupacion":"nuevo_nombre_columna"},axis=1)
                  .reset_index(level=0,drop=True)
    
    - as_index=False: Mantiene las columnas agrupadas como columnas normales, no como índice.
    - observed=True: En columnas categóricas, solo agrupa por combinaciones observadas y evita advertencias.
    - .reset_index(level=0, drop=True): Elimina el índice de nivel 0 sin agregarlo como columna;
                                        útil para limpiar la estructura después de agrupar o pivotear.

       
    ### 🧠 En este caso, debemos almacenar en una variable los cambios a realizar en el dataframe.

❎ En el agrupamiento de información, podemos utilizar diversas funciones de agregación, tales como:

💡.min():    ⬅️ Permite obtener el mínimo valor de la información agrupada.
💡.max():    ⬅️ Permite obtener el máximo valor de la información agrupada.
💡.sum():    ⬅️ Permite sumar la información de una columna cuantitativa por la información agrupada.
💡.count():  ⬅️ Permite contar la cantidad de información de una columna por la información agrupada.
💡.mean():   ⬅️ Permite obtener la media de una columna cuantitativa por la información agrupada.
💡.median(): ⬅️ Permite obtener la mediana de una columna cuantitativa por la información agrupada.
"""
###✔️ Usaremos el dataset de "penguins"
import pandas as pd
import seaborn as sns
df_penguins = sns.load_dataset("penguins") 
# df_penguins.head() 

In [None]:
## 💡 EJEMPLO 1: (AGRUPANDO POR UNA COLUMNA) 
df_agrupado_uno = df_penguins.groupby(by=["species"],as_index=False,observed=True)["body_mass_g"].mean().rename({"body_mass_g":"avg_body_mass_g"},axis=1)
# df_agrupado_uno.head()

## 💡 EJEMPLO 2: (AGRUPAR POR DOS COLUMNAS)
df_agrupado_dos = df_penguins.groupby(by=["species","sex"],as_index=False,observed=True)["body_mass_g"].mean().rename({"body_mass_g":"avg_body_mass_g"},axis=1)
# df_agrupado_dos.head()

## 💡 EJEMPLO 3: (AGRUPAR LA INFORMACIÓN POR LA CANTIDAD DE LA MISMA COLUMNA)
df_agrupado_tres = df_penguins.groupby(by=["species"],as_index=False,observed=True).size().rename({"size":"cantidad_species"},axis=1).reset_index(level=0,drop=True)
df_agrupado_tres.head()

Unnamed: 0,species,cantidad_species
0,Adelie,152
1,Chinstrap,68
2,Gentoo,124


#### FASE 4.1 CÁLCULOS MÓVILES EN PANDAS 🐼💹

Así como SQL SERVER permite realizar cálculos móviles basados en funciones de agregación
(min,max,mean,entre otros), Pandas lo realiza mediante la función  entre una  N cantidad de
filas hacia atrás, mediante la función .rolling()

In [None]:
"""
    📝 SINTAXIS: 
        
        1️⃣ Cálculo Móvil sin Particionamiento: Permite el cálculo móvil de una columna que no es afectada por otra(s).
        
        dataset_nombre[NuevaColumnaMovil] = dataset_nombre[NombreColumnaCalcular]
                                            .rolling(window=CantidadFilasAcumulacion,
                                                     min_periods=CantidadMinimaFilasAcumulacion)
                                            .funcionAgregacion(sum,mean,count,median,etc)
                                            
        2️⃣ Cálculo Móvil con Particionamiento: Permite el cálculo móvil por columnas en específico.
        
        dataset_nombre[NuevaColumnaMovil] = dataset_nombre.group_by(Columna1Particionar,ColumnaNParticionar)
                                            [NombreColumnaCalcular].rolling(window=CantidadFilasAcumulacion,
                                            min_periods=CantidadMinimaFilasAcumulacion)
                                            .funcionAgregacion(sum,mean,count,median,etc)
                                            .reset_index(drop=True,level=0)

        💡 Importante: El parámetro min_periods permitirá que el cálculo móvil sea de una mínima 
                       cantidad de periodos para evitar valores NaN. Además, los parámetros as_index y observed
                       que se colocaban en el group_by() ya no serán necesarios, sin embargo, debemos establecer
                       .reset_index(drop=True,level=0) para que los indices coincidan y se pueda asignar 
                       el resultado de vuelta al Dataframe original.                                            

        ### 🧠 Cuando realizamos el cálculo móvil a una columna, Pandas siempre incluirá la fila actual.
"""