## 📘 Domina tus datos con Pandas: Fundamentos esenciales para todo Analista 🐼

---

👨‍💻 Autor: Brayan Neciosup  
📍 Portafolio: [brayanneciosup](https://bryanneciosup626.wixsite.com/brayandataanalitics)  
🔗 LinkedIn: [linkedin.com/brayanneciosup](https://www.linkedin.com/in/brayan-rafael-neciosup-bola%C3%B1os-407a59246/)  
💻 GitHub: [github.com/BrayanR03](https://github.com/BrayanR03)  
📚 Serie: Fundamentos de Pandas y Polars


In [32]:
# Instalar librería: pip install pandas
# Importamos la librería
import pandas as pd

### 📌 Series en Pandas: El poder de una columna con alma de array

#### ✅ DEFINICIÓN DE UNA SERIE EN PANDAS 🐼

Sintaxis: 

serie=pd.Series(elementos_serie,index=IndicesPreviamenteDefinidos) ⬅️ El parámetro "index", es opcional!.

**Importante: Al definir los indices para las series establecidas, debemos tener la misma cantidad de elementos 
              para el indice y para la información. En caso, no establezcamos la propiedad index=,
              Pandas mostrará para el indice de los datos una serie de números basado en la cantidad de datos (empezando en 0).

In [None]:
# Serie - Ejemplo 1 (Con índices establecidos):
data_1=[1,2,3,4,5]
serie_1=pd.Series(data=data_1,index=["A","B","C","D","E"]) 
print("==== SERIE 1 - ÍNDICES ESTABLECIDOS:")
print(serie_1)
# Serie - Ejemplo 2 (Sin índices establecidos):
data_2=[1,2,3,4,5]
serie_2=pd.Series(data=data_2)
print("==== SERIE 1 - ÍNDICES NO ESTABLECIDOS") 
print(serie_2)
# Serie - Ejemplo 3 (Diversos tipos de datos en la Serie):
data_2=[1,2.5,3,"Hola",True]
serie_2=pd.Series(data=data_2)
print("==== SERIE 1 - ÍNDICES NO ESTABLECIDOS") 
print(serie_2)

==== SERIE 1 - ÍNDICES ESTABLECIDOS:
A    1
B    2
C    3
D    4
E    5
dtype: int64
==== SERIE 1 - ÍNDICES NO ESTABLECIDOS
0    1
1    2
2    3
3    4
4    5
dtype: int64
==== SERIE 1 - ÍNDICES NO ESTABLECIDOS
0       1
1     2.5
2       3
3    Hola
4    True
dtype: object


#### ✅ OPERACIONES CON SERIES EN PANDAS 🐼

In [14]:
serie_example = pd.Series(data=[10,15,35,2,82,15,13]) # ⬅️ Trabajaré sin índices en esta serie de ejemplo
serie_example

0    10
1    15
2    35
3     2
4    82
5    15
6    13
dtype: int64

In [15]:
# a). Obtener un valor por el índice establecido
print(serie_example[5]) # ⬅️ Accedemos el elemento del índice 5



15


In [16]:
# b). Filtrar valores: Para realizar el filtrado debemos llamar a la serie y luego entre [] llamar a la serie y aplicar la condicion.
# Sintaxis: print(nombre_serie[nombre_serie + condición]) ⬅️ condiciones usando operadores lógicos: > | < | = | >= | <= | !=
# Ejemplo : 
print(serie_example[serie_example>18]) # ( Valores de la serie mayores a 18 )


2    35
4    82
dtype: int64


In [17]:
# c). Realizar operaciones aritméticas básicas:
# Sintaxis: print(nombre_serie + | - | * | / | Valor)
# Ejemplo : 
print(serie_example + 10) # ⬅️ Aumentar +10 cada elemento de la serie

0    20
1    25
2    45
3    12
4    92
5    25
6    23
dtype: int64


In [29]:
# d). Reemplazar valores por condiciones (.mask(), .where(), .apply())
# 💡Objetivo: Reemplazamos valores mayores a 30, por 100.
# Sintaxis: 

# serie = nombre_serie.mask(condición_serie,valor_reemplazar) # ⬅️ Usando .mask() (llamamos a la serie y reemplaza donde el valor es True)
# serie = serie.where(condición_serie_inversa,valor_reemplazar_condicion) # ⬅️ Usando .where() (Funciona inversamente al requerimiento)
# serie = serie.apply(lambda x: valor_cumple if condicion else valor_no_cumple ) # Usando .apply() mediante lambda function.

# Ejemplo:

serie_1 = serie_example.mask(serie_example>30,100) # ⬅️ Usando .mask() (llamamos a la serie y condicionamos los valores mayor a 100)
print("========== SERIE 1")
print(serie_1)
serie_2 = serie_example.where(serie_example<30,100) # Usando .where() Los valores menor a 30 no cambian, los demás sí (100).
print("========== SERIE 2")
print(serie_2)
serie_3 = serie_example.apply(lambda x: 100 if x>30 else x ) # Usando .apply() El x, es cada elemento de la serie y se evalua.
print("========== SERIE 3")
print(serie_3)

0     10
1     15
2    100
3      2
4    100
5     15
6     13
dtype: int64
0     10
1     15
2    100
3      2
4    100
5     15
6     13
dtype: int64
0     10
1     15
2    100
3      2
4    100
5     15
6     13
dtype: int64


### 📌 Dataframes en Pandas: ...

#### ✅ DEFINICIÓN DE UN DATAFRAME EN PANDAS 🐼

Son estructuras de datos bidimensionales, que permiten almacenar información en forma de una matriz (FilasxColumnas),
las cuáles, deben estar de acorde al tipo de dato definido en la columna. Además, es una de las estructuras de datos
más utilizadas en Análisis, Ingeniería y Ciencia de datos debido que permite la manipulación de información.

SINTAXIS:

        dataframe_nombre = pd.DataFrame(data=DatosDataframe,columns=NombreColumnasPreviamenteDefinidas,index=[Opcional])

        data: Información que contedrá el dataframe
        columns: Las columas que presentará el dataframe
        index: Indices opcionales que podemos asignarle

In [None]:
# DEFINIR UN DATAFRAME MEDIANTE UN DICCIONARIO
"""
📝 Nota: Si queremos definir un dataframe desde un diccionario, las claves del diccionario se convertirán
         en las columnas del dataframe y los valores serán la información almacenada bidireccionalmente
         por cada columna del dataframe.
"""
diccionario_example = {
    "Nombre":["Brayan","Rafael","Pepito"],
    "Edad": [25,27,20],
    "Nota":[15,10,16]
}
dict_to_df = pd.DataFrame(diccionario_example)
dict_to_df.head() # ⬅️ Función básica que permite ver los 5 primeros registros de un dataframe. 


Unnamed: 0,Nombre,Edad,Nota
0,Brayan,25,15
1,Rafael,27,10
2,Pepito,20,16


In [None]:
# DEFINIR UN DATAFRAME DESDE CERO
dataframe = pd.DataFrame(data=[["Brayan",25,15],["Rafael",27,10],["Pepito",20,16]],
                         columns=["Nombre","Edad","Nota"]) # ⬅️ Sin establecer índice
# dataframe.head()
dataframe_indice = pd.DataFrame(data=[["Brayan",25,15],["Rafael",27,10],["Pepito",20,16]],
                                columns=["Nombre","Edad","Nota"],index=["A","B","C"]) #⬅️ Estableciendo índice
# dataframe_indice.head()

"""
💡 Importante: Al definir las columnas para el Dataframe debemos tener en cuenta que
               si un solo registro tiene la misma cantidad de elementos de acuerdo a la cantidad de columnas,
               por defecto, se asignará el valor NaN a los valores faltantes. Caso contrario, si genera error,
               porque ninguna de sus filas, tiene la misma cantidad de elementos que la de sus columnas.
               Por otro lado, la propiedad index en los dataframe será opcional y si es llamada 
               se realizará lo mismo que en las series.
"""

dataframe_valores_faltantes = pd.DataFrame(data=[["Brayan",15],["Rafael",10,15],["Pepito",20]],
                                columns=["Nombre","Edad","Nota"])
dataframe_valores_faltantes.head() # ✅ Los valores faltantes se vuelven NaN sin generar error.


# dataframe_valores_faltantes = pd.DataFrame(data=[["Brayan",15],["Rafael",15],["Pepito",20]],
#                                 columns=["Nombre","Edad","Nota"])
# dataframe_valores_faltantes.head() # ❌ Genera error porque los datos solo tiene 2 elementos y el dataframe presenta 3 columnas.


Unnamed: 0,Nombre,Edad,Nota
0,Brayan,15,
1,Rafael,10,15.0
2,Pepito,20,


In [None]:
# DEFINIR UN DATAFRAME COLUMNA POR COLUMNA

dataframe_columna_a_columna = pd.DataFrame() # ⬅️ Inicializamos un dataframe vacío (Así como cuando inicializamos un objeto vacío en programación)
# dataframe_columna_a_columna.head()

"""
    📝Nota: Para definir una nueva columna en un dataframe, debemos llamar al dataframe y
            entre corchetes ["NombreColumna"] definimos la columna. Asimismo, cada columna que
            se crea, Pandas internamente le asigna un tipo de dato (int,float,bool,etc), sin embargo,
            si se definen diferentes tipos de datos Pandas asigna un tipo objeto.
"""

dataframe_columna_a_columna["ColumnaEdad"] = [10,16,18,20] 
dataframe_columna_a_columna["ColumnaObjeto"] = ["Brayan",15,45.5,10]
# dataframe_columna_a_columna.head()

"""
    💡Importante: Al definir columna por columna un dataframe en Pandas debemos si o sí colocar
                  la misma cantidad de datos entre cada columna.                  
"""
# dataframe_columna_a_columna["ColumnaError"] = [23,True] # ❌ Esto genera un error.
# dataframe_columna_a_columna.head() 


Unnamed: 0,ColumnaEdad,ColumnaObjeto,ColumnaError
0,10,Brayan,23
1,16,15,True
2,18,45.5,
3,20,10,


#### ✅ OPERACIONES CON DATAFRAMES EN PANDAS 🐼

In [64]:
df_example = pd.DataFrame(data=[["BRAYAN",15,13],["RAFAEL",25,19],["PEPITO",20,10]],
                          columns=["Nombre","Edad","Nota"])
df_example.head()

Unnamed: 0,Nombre,Edad,Nota
0,BRAYAN,15,13
1,RAFAEL,25,19
2,PEPITO,20,10


In [70]:
# A). OBTENER EL VALOR O VALORES DE LA COLUMNA DE UN DATAFRAME MEDIANTE SU NOMBRE.

"""
    📝 SINTAXIS: 
    
        dataframe_nombre[NombreColumna] ⬅️ Llamamos al dataframe directamente o
        print(dataframe_nombre[NombreColumna]) ⬅️ Usamos print()
        
        **Importante: Cuando llamamos con solo un par de corchetes "[]", muestra los resultados,
                      pero, si llamamos con dos pares de corchetes "[[]]" traerá el nombre de la columna.
                      
        ### 🧠 Tengamos en cuenta que podemos almacenar el resultado de estas operaciones en variables. 
"""
# 💡 EJEMPLO 1: Usando un par de corchetes "[]"
# df_example["Nota"]
# print(df_example[["Nota"]])

# 💡 EJEMPLO 2: Usando dos pares de corchetes "[[]]"
# print(df_example[["Nota"]])
# df_example[["Nota"]]

# 💡 EJEMPLO 3: Obtener valores de varias columnas
df_example[["Nota","Nombre"]]

Unnamed: 0,Nota,Nombre
0,13,BRAYAN
1,19,RAFAEL
2,10,PEPITO


In [None]:
# B). OBTENER UNA FILA DE VALORES ESPECÍFICAS DEL DATAFRAME

"""
    📝 SINTAXIS:
    
        dataframe_nombre.iloc[NumeroIndice] ⬅️ Recordemos que el indice empieza en 0.
        
        ### 🧠 Tengamos en cuenta que podemos almacenar el resultado de estas operaciones en variables.
"""

# 💡 EJEMPLO 1: NÚMERO DE ÍNDICE CORRECTO ✅ 
# df_example.iloc[2] # ⬅️ Número de indice: 2.
print(df_example.iloc[2]) # ⬅️ Número de indice: 2.

## 💡 EJEMPLO 2: NÚMERO DE ÍNDICE INCORRECTO ❌ 

## df_example.iloc[3] # ⬅️ Número de indice: 3.
## print(df_example.iloc[3]) # ⬅️ Número de indice: 3.  
## ❌ Error: Índice fuera de los límites

Nombre    PEPITO
Edad          20
Nota          10
Name: 2, dtype: object


In [None]:
# C). OBTENER UN VALOR ESPECÍFICO DE UN REGISTRO, BASADO EN SU NÚMERO DE ÍNDICE
#     Y EL NOMBRE DE UNA COLUMNA.
"""
    📝 SINTAXIS: 
    
        dataframe_nombre.loc[NumeroIndice,NombreColumna] ⬅️ Establecemos 2 parámetros en .loc[]
        
        ### 🧠 Tengamos en cuenta que podemos almacenar el resultado de estas operaciones en variables.
"""
# 💡 EJEMPLO: 
# df_example.loc[1,"Nota"] # ⬅️ Accedemos a la fila con índice 1 y la columna de nombre Nota.
print(df_example.loc[1,"Nota"]) # ⬅️ Accedemos a la fila con índice 1 y la columna de nombre Nota.

19


In [None]:
# D). FILTRAR VALORES EN UN DATAFRAME:

""" 
    Para realizar el filtro de valores debemos de llamar al Dataframe 
    y luego entre corchetes volver a llamar al Dataframe y una
    columna específica con una condición a evaluar.
    
     📝 SINTAXIS:
     
        dataframe_nombre[dataframe_nombre[NombreColumna] + condición] ⬅️ La condición pueden ser mediante operadores lógicos
                                                                         pero, respetando el requerimiento a filtrar.
                                                                         
        condiciones = ( > || < || >= || <= || != ) ⬅️ Operadores lógicos 
        
        ### 🧠 Tengamos en cuenta que podemos almacenar el resultado de estas operaciones en variables.
"""
# 💡 EJEMPLO 1: USANDO OPERADORES LÓGICOS (EN UNA COLUMNA)

# df_example[df_example["Nota"]>15] # ⬅️ Notas mayores a 15
# df_example[df_example["Nombre"]!='RAFAEL'] # ⬅️ Todos los nombre diferentes a RAFAEL


# 💡 EJEMPLO 2: USANDO OPERADORES LÓGICOS (EN MÁS DE UNA COLUMNA)

# df_example[(df_example["Edad"]==20) & (df_example["Nota"]==10)] # ⬅️ Edad igual a 20 y Nota 10. (2 columnas)
### ➡️ Cada condición de filtro, la debemos separar mediante paréntesis ().


""" 
    También podemos usar el método .query() para realizar filtrados en una sola linea,
    llamando directamente a las columnas dentro de las comillas simples ''. Sin embargo,
    si requerimos filtrar en columnas tipo String, el valor debe estar dentro de comillas dobles "".
    
    ### 🧠 Tengamos en cuenta que podemos almacenar el resultado de estas operaciones en variables.
    
    📝 SINTAXIS:
    
        dataframe_filtrado = dataframe_nombre.query('NombreColumna1 + condición1 and|or NombreColumna2 + condición2 ') ⬅️ Utilizamos and y or
"""

# 💡 EJEMPLO 3:

# df_filtrado = df_example.query('Nombre=="RAFAEL" and Nota==19') # Filtrando por dos columnas (Usamos and)
# df_filtrado.head()

# 💡 EJEMPLO 4:

df_filtrado = df_example.query('Edad==20 or Nota==19') # Filtrando por dos columnas (Usamos or)
df_filtrado.head()

Unnamed: 0,Nombre,Edad,Nota
1,RAFAEL,25,19
2,PEPITO,20,10


In [65]:
# E). AGREGAR UNA O VARIAS COLUMNAS AL DATAFRAME:

"""
    La o las columnas agregadas al dataframe son el resultado de nueva información
    o de cálculos realizados entre las columnas existentes del dataframe.
    
    📝 SINTAXIS:

        dataframe_nombre["NuevaColumna"] = [NuevaInformacion] || dataframe_nombre["NombreColumna1"] + 10
        
    ### 🧠 Tengamos en cuenta que podemos almacenar el resultado de estas operaciones en variables.
"""

# 💡 EJERCICIO 1: NUEVA COLUMNA CON INFORMACIÓN

df_example["Puntaje"] = [1,2,3] # ⬅️ Recodemos que para esta forma de agregar información
                                #    debe contener la misma cantidad de datos que 
                                #    el total de registros.
# df_example.head()

# 💡 EJERCICIO 2: NUEVA COLUMNA CALCULADA

df_example["Ranking"] = df_example["Nota"] * df_example["Puntaje"] # ⬅️ Recordemos que debemos acceder 
                                                                   #    a las columnas a través de los corchetes [].
df_example.head()

Unnamed: 0,Nombre,Edad,Nota,Puntaje,Ranking
0,BRAYAN,15,13,1,13
1,RAFAEL,25,19,2,38
2,PEPITO,20,10,3,30


In [None]:
# F). ELIMINAR COLUMNAS DEL DATAFRAME:

"""
    📝 SINTAXIS:
    
        dataframe_nombre.drop(columns=["NombreDeColumnaEliminar"], inplace=True | False)
        
    💡 Importante: Al llamar a la propiedad inplace y establecer el valor en True, eliminamos
                   la columna del dataframe original. Sin embargo, al no llamar al parámetros
                   inplace o llamarlo pero estableciendo un valor false, Pandas devuelve una
                   copia del Dataframe sin las columnas eliminadas.

    ### 🧠 En este caso, si eliminamos directamente en el dataframe, no hay necesidad
    ###     de almacenarlo en una variable, pero, si en caso requeramos, realizaremos una copia
    ###     del dataframe original y eliminamos la columna.
"""

# 💡 EJEMPLO 1:
# df_example.drop(columns="Ranking",inplace=True) # ⬅️ Establecemos True en inplace ✅
# df_example.head() # ⬅️ Verificamos que si se elimino correctamente la columna

### 💡 EJEMPLO 2:
### df_example.drop(columns="Ranking",inplace=False) # ⬅️ Establecemos False en inplace ❌
### df_example.head() # ⬅️ Verificamos que NO SE ELIMINÓ correctamente la columna ❌

# 💡 EJEMPLO 3:
df_copia = df_example.copy() # ⬅️ Método .copy() que permite copiar el dataframe a otra variable.
df_copia.drop(columns="Ranking",inplace=True) # ⬅️ Establecemos True en inplace ✅
df_copia.head() # ⬅️ Verificamos que si se elimino correctamente la columna


Unnamed: 0,Nombre,Edad,Nota,Puntaje
0,BRAYAN,15,13,1
1,RAFAEL,25,19,2
2,PEPITO,20,10,3


In [None]:
# G). ORDERNAR LOS DATOS DEL DATAFRAME POR UNA O VARIAS COLUMNAS

"""
    📝 SINTAXIS: 

        dataframe_nombre.sort_values(by='ColumnaAOrdenar',ascending= True | False) ⬅️ Ordenamos por los nombres de columnas
        
    💡 Importante: Al establecer el valor de ascending en True, los datos se ordenan
                   de menor a mayor por la columna que especifiquemos. Sin embargo, sino 
                   llamamos a la propiedad ascending o por el contrario, se establece el valor en False,
                   los datos se ordenan de mayor a menor.
                   
        ### 🧠 Tengamos en cuenta que podemos almacenar el resultado de estas operaciones en variables.
"""
# 💡 EJEMPLO 1: ➡️ Ordenamos Alfabéticamente (A-Z)

# df_example.sort_values(by="Nombre",ascending=True).head()

# 💡 EJEMPLO 2: ➡️ Ordenamos Alfabéticamente (Z-A)

# df_example.sort_values(by="Nombre",ascending=False).head()

# 💡 EJEMPLO 3: ➡️ Ordenamos por columna Numérica (De mayor a menor)

# df_example.sort_values(by="Edad",ascending=False).head()

# 💡 EJEMPLO 4: ➡️ Ordenamos por columna Numérica (De menor a mayor)

df_example.sort_values(by="Edad",ascending=True).head()


Unnamed: 0,Nombre,Edad,Nota,Puntaje,Ranking
0,BRAYAN,15,13,1,13
2,PEPITO,20,10,3,30
1,RAFAEL,25,19,2,38


#### ✅ RANGO INTERQUARTIL EN PANDAS 🐼

El rango interquartil (IQR) es una métrica estadística utilizada para identificar valores atípicos en un conjunto de datos. Su uso es esencial en procesos de limpieza y validación, debido que permite evaluar la integridad del dataset al detectar registros que se desvían significativamente del comportamiento general. En proyectos de Machine Learning, una correcta identificación de outliers a través del IQR permite mejorar la calidad de los datos de entrada, lo que impacta directamente en el rendimiento y generalización de los modelos. Para perfiles como Data Analysts y Data Engineers, el IQR se convierte en una herramienta clave en la etapa de preprocesamiento de datos.

In [None]:
# ESTADÍSTICA BÁSICA EN PANDAS: Mediante la función .describe()
"""
    📝 SINTAXIS:
    
        dataframe_nombre.describe() ⬅️ Esta función devuelve: cantidad_valores||media||desviación_estándar||
                                                               valor_mínimo||valor_máximo||quartil_(1,2,3) ⬅️ Quartiles con.desribe()
    
    ### 💡 Importante: Esta función solo devuelve para las columnas con datos numéricos. También,
    ###                 para poder realizar calculos del IQR (Rango Interquartil), podemos calcular
    ###                 los quartiles mediante Numpy y su función np.percentile().
    
        ### Instalar Numpy: pip install numpy
        ### Importar Numpy: import numpy as np
"""
""" ✅ PARA LOS EJEMPLOS DE IQR, USAREMOS UN DATASET DE LA CARPETA datasets: titanic.csv"""

df_titanic = pd.read_csv("../datasets/titanic.csv",sep=",") # ⬅️ Lo explicaremos en próximos temas
# df_titanic.head()

# 💡 EJEMPLO 1 : 

# df_titanic.describe() # ⬅️ Verificamos las estadísticas básicas descriptivas del dataset

""" 
    QUARTILES:

    Los quartiles hacen referencia a las partes iguales divididas en 4 de todo el conjunto de datos.
    Q1 (25% de los datos) - Q2 (50% de los datos) - Q3 (75% de los datos) y Q4 (100% de los datos).
    
    📝 SINTAXIS:

    valor_quartil = np.percentile(ColumnaDeDataframeOSerie,CantidadCuartil)
    
    ### 🧠 Para los valores atípico solo usaremos los quartiles 1 y 3.
"""

# 💡 EJEMPLO 2: RANGO INTERQUARTIL (Columna "fare")
import numpy as np

q1_fare = np.percentile(df_titanic["fare"],25) # Percentil o Quartil 1
q3_fare = np.percentile(df_titanic["fare"],75) # Percentil o Quartil 3

range_iqr_body = q3_fare - q1_fare # Cálculo del rango interquartil 

# Límite inferior
lower_bound_fare  = q1_fare - 1.5 * range_iqr_body # Formula para hallar valores no atípicos, es decir, valores normales.
# Límite superior
upper_bound_fare  = q3_fare + 1.5 * range_iqr_body # Formula para hallar valores atípicos, es decir, valores no normales.

df_titanic_atipicos = df_titanic[(df_titanic["fare"]<lower_bound_fare) | (df_titanic["fare"]>upper_bound_fare)]
# df_titanic_atipicos.head()

df_titanic_normales = df_titanic[(df_titanic["fare"]>=lower_bound_fare) & (df_titanic["fare"]<=upper_bound_fare)]
# df_titanic_normales.head()

print(f"Cantidad de datos inicial: {df_titanic.shape[0]}")
print(f"Cantidad de datos atípicos: {df_titanic_atipicos.shape[0]}")
print(f"Cantidad de datos normales: {df_titanic_normales.shape[0]}")

Cantidad de datos inicial: 891
Cantidad de datos atípicos: 116
Cantidad de datos normales: 775


#### ✅ MANIPULACIÓN DE DATOS EN PANDAS 🐼

La manipulación de datos, también conocida como data wrangling, es una fase 
fundamental en todo proyecto de análisis de datos. Consiste en transformar 
un dataset crudo, es decir, datos en su forma original, posiblemente desordenada o
incompleta en un formato estructurado y útil, como un DataFrame.

##### Fase 1. Fuentes de Datos 🗃️

"""
    Pandas 🐼 permite leer datos desde múltiples fuentes como archivos CSV, Excel, JSON, 
    bases de datos SQL, entre otros formatos comunes. Esta flexibilidad facilita el trabajo
    con datasets provenientes de distintos orígenes, tanto locales como remotos.
"""

In [29]:
# Paso A). DEFINIR LA CARPETA ORIGEN DE DONDE PROVIENE NUESTROS DATASETS (LOCAL)
"""
    📝 SINTAXIS: 
        
        carpeta_origen = "RutaCarpetaOrigen"
    
    ### 🧠 Va a depender en que entorno nos encontremos porque las rutas 
    ###     de carpetas pueden ser (\) o (/).
"""
# 💡 EJEMPLO 1 (Ruta completa):

# carpeta_origen = "C:/Users/USER/Documents/FundamentosPandasPolars/datasets" 

# print(carpeta_origen)

# 💡 EJEMPLO 2 (Ruta relativa):

carpeta_origen = f"../datasets/"
# print(carpeta_origen)
import os # ⬅️ Permite trabajar con archivos
print(os.listdir(carpeta_origen)) # ⬅️ Mostrar los archivos de la carpeta

['penguins.csv', 'titanic.csv']


In [30]:
# Paso B). DEFINIR EL NOMBRE DEL ARCHIVO DEL DATASET
"""
    📝 SINTAXIS:
    
        nombre_archivo = "NombreArchivo.extension"

    ### 🧠 Dependerá de la extensión del archivo para indicarle a Pandas que función utilizar.
"""
# 💡 EJEMPLO 1 (.csv): 
archivos_csv = "penguins.csv"

# 💡 EJEMPLO 2 (.xlsx): 
archivos_xlsx = "Pedidos.xlsx"

# 💡 EJEMPLO 3 (.json): 
archivos_json = "eventos_logs.json"


In [None]:
# Paso C). LECTURA DE LOS ARCHIVOS (PASO A + PASO B)
"""
    ### 🧠 Para los archivos .csv, se recomienda conocer el separador o
    ###     delimitador presente en el archivo e indicarle a Pandas.

    📝 SINTAXIS:
    
        dataset_nombre = pd.read_extensión(carpeta_origen+nombre_archivo.extensión)
"""
import pandas as pd # ✅ No olvidar importar pandas al inicio del notebook

# 💡 EJEMPLO 1 (Lectura de .csv): 

dataset_csv = pd.read_csv(carpeta_origen+archivos_csv,sep=",") # ⬅️ Indicamos el delimitador en sep.
# dataset_csv.head() # ⬅️ Función que permite leer y retornar los 5 primeros registros del archivo.
"""==============================================================================================="""
# 💡 EJEMPLO 2 (Lectura de .xlsx): 

dataset_excel = pd.read_excel(
                 io=carpeta_origen+archivos_xlsx,
                 sheet_name="Hoja1") # ⬅️ Indicamos el nombre de la Hoja donde se encuentra
                                     #     la información.
# dataset_excel.head() # ⬅️ Función que permite leer y retornar los 5 primeros registros del archivo.

""" ⚠️ En caso les arroje error sobre No module named 'openpyxl
       solo instalemos el módulo con: pip install openpyxl
'"""
# dataset_excel.head() # ⬅️ Función que permite leer y retornar los 5 primeros registros del archivo.
"""==============================================================================================="""
# 💡 EJEMPLO 3 (Lectura de .json):

### Archivo básico JSON
archivo_json_basico = "json_basico.json" # ⬅️ Nombre de archivo básico JSON
dataset_json1 = pd.read_json(carpeta_origen+archivo_json_basico) # ⬅️ Lectura de JSON básico
# dataset_json1.head()

### Archivo complejo JSON
import json # ⬅️ Utilizaremos la librería json para el aplanamiento del Archivo JSON complejo.
archivo_json_complejo = "eventos_logs.json" # ⬅️ Nombre de archivo complejo JSON
with open(carpeta_origen + archivo_json_complejo, "r", encoding="utf-8") as file_data:
    data_archivo_json_complejo = json.load(file_data)
dataset_json2 = pd.json_normalize(data_archivo_json_complejo) # ⬅️ Lectura de archivo JSON complejo.
dataset_json2.head() # ⬅️ Función que permite leer y retornar los 5 primeros registros del archivo.


Unnamed: 0,evento.usuario_id,evento.accion,evento.timestamp
0,U846,compra,2025-05-25T21:07:47.202219Z
1,U321,registro,2025-05-23T11:50:47.202219Z
2,U813,login,2025-05-25T19:09:47.202219Z
3,U677,registro,2025-05-27T09:41:47.202219Z
4,U425,compra,2025-05-23T14:44:47.202219Z
