<h1 align="center"><b>CORPORACIÓN UNIVERSITARIA ADVENTISTA</b></h1>
<h1 align="center"><b>FACULTAD DE INGENIERÍA</b></h1>
<h1 align="center"><b>ESPECIALIZACIÓN EN ANALÍTICA DE DATOS Y BIG DATA</b></h1>
<h2 align="center"><b>CURSO:</b></h1>
<h2 align="center"><b>LENGUAJES DE PROGRAMACIÓN PARA INTELIGENCIA DE NEGOCIOS</b></h1>
<h2 align="center"><b>Tema 1 - Introducción y Fundamentos de Programación para Big Data con Python</b></h1>
<h3 align="center">2025</h1>
<h3 align="center">MEDELLÍN - COLOMBIA </h1>

*** 
|[![Outlook](https://img.shields.io/badge/Gmail-D14836??style=plastic&logo=microsoft-outlook&logoColor=white)](mailto:docente.calvarez@unac.edu.co)||[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/carlosalvarezh/imgs/blob/main/Semana2.ipynb)
|-:|:-|--:|
|[![LinkedIn](https://img.shields.io/badge/linkedin-%230077B5.svg?style=plastic&logo=linkedin&logoColor=white)](https://www.linkedin.com/in/carlosalvarez5/)|[![@alvarezhenao](https://img.shields.io/twitter/url/https/twitter.com/alvarezhenao.svg?style=social&label=Follow%20%40alvarezhenao)](https://twitter.com/alvarezhenao)|[![@carlosalvarezh](https://img.shields.io/badge/github-%23121011.svg?style=plastic&logo=github&logoColor=white)](https://github.com/carlosalvarezh)|  
***

<table>
 <tr align=left><td><img align=left src="https://github.com/carlosalvarezh/imgs/blob/main/CCLogoColorPop1.gif?raw=true" width="55">
 <td>Text provided under a Creative Commons Attribution license, CC BY-NC 4.0</td>
 <td>All code is made available under the FSF-approved MIT license.(c) Corporación Universitaria Adventista de Colombia</td>
</table>

***

# **Semana 2 – Pandas para Manipulación y Limpieza de Datos (BI)**

<div align="center">
  <img src="https://github.com/carlosalvarezh/imgs/blob/main/Pandas.png?raw=true" width="350">
</div>

## **Introducción**

Pandas es la biblioteca estándar en Python para trabajar con datos tabulares. Proporciona estructuras (DataFrame, Series) y un conjunto coherente de operaciones vectorizadas para leer, inspeccionar, integrar, depurar, transformar, validar y exportar datos. En el contexto de BI, su aporte principal es: reproducibilidad (código en lugar de operaciones manuales), trazabilidad (cada transformación queda explícita) y eficiencia (procesa millones de filas con operaciones de alto nivel). Lo que sigue es un compendio de funciones y patrones que cubren lo indispensable para ejecutar el ciclo de limpieza presentado.

## **Estructuras de datos en Pandas**

Pandas ofrece varias estructuras de datos que nos resultarán de mucha utilidad y que vamos a ir viendo poco a poco. Todas las posibles estructuras de datos que ofrece a día de hoy son:  
- **Series:** Son arreglos unidimensionales con indexación, similares a los diccionarios. Pueden generarse a partir de diccionarios o de listas.  

- **DataFrame:** Son arreglos bidimensionales, similares a las tablas de bases de datos relacionales como SQL.  

- **Panel, Panel4D y PanelND:** permiten trabajar con más de dos dimensiones.   


## **Importación de Pandas**

Para importar el módulo Pandas y todas las funciones que incluye, basta con indicar la siguiente línea de código al comienzo del archivo:

In [1]:
import pandas as pd

## **Pandas Series**

### **Introducción**

Una Series es un arreglo unidimensional etiquetado. Cada valor tiene un índice (etiqueta). A diferencia de un ndarray de NumPy, una Series mantiene alineación por índice y ofrece un rico conjunto de métodos para análisis de datos.


In [2]:
s = pd.Series([10, 20, 30], index=["A", "B", "C"], name="ventas")

Claves:
- **values:** datos (NumPy u objeto).  
- **index:** etiquetas.  
- **dtype:** tipo (int, float, bool, datetime64, category, object, etc.).  
- **name:** etiqueta de la serie (útil al convertir a DataFrame o exportar).  


### **Creación y tipos de datos:**

Las Series se pueden crear desde listas, diccionarios, rangos de fechas o valores categóricos. Pandas reconoce automáticamente el tipo de dato (`int`, `float`, `object`, `datetime`, `category`) y ajusta las operaciones en consecuencia.

In [4]:
pd.Series([1, 2, 3])                       # desde lista

0    1
1    2
2    3
dtype: int64

In [5]:
pd.Series({"online":5200, "tienda":4800}) # desde diccionario

online    5200
tienda    4800
dtype: int64

In [None]:
pd.Series(pd.date_range("2025-01-01", periods=3)) # fechas

0   2025-01-01
1   2025-01-02
2   2025-01-03
dtype: datetime64[ns]

### **Indexación y slicing**

Cada valor en la Series está asociado a un índice (etiqueta). Podemos acceder a los elementos por posición o por nombre. Permite trabajar con datos como si fueran tablas: accedemos a lo que queremos usando índices claros, no solo posiciones numéricas.

In [6]:
s = pd.Series([100,200,300,400], index=["a","b","c","d"])
print(s.loc["b":"d"])   # por etiqueta (incluye 'd')
print(s.iloc[1:3])      # por posición (excluye el final)


b    200
c    300
d    400
dtype: int64
b    200
c    300
dtype: int64


### **Filtros y condiciones**

Podemos seleccionar subconjuntos de datos mediante condiciones lógicas. Facilita aplicar reglas de negocio: identificar clientes activos, ventas mayores a cierto umbral, etc.

In [7]:
s = pd.Series([10, 0, 25, 8, 12], name="unidades")
print(s[s > 10])         # filtrar valores mayores a 10
print(s.where(s > 10, 0)) # reemplazar no válidos por 0


2    25
4    12
Name: unidades, dtype: int64
0     0
1     0
2    25
3     0
4    12
Name: unidades, dtype: int64


### **Manejo de valores faltantes**

En análisis de datos, los valores faltantes son comunes. Pandas los representa como `NaN`. Esto permite detectarlos, eliminarlos o imputarlos sin perder la estructura del conjunto.

In [8]:
s = pd.Series([10, None, 30])
print(s.isna())       # detectar
print(s.fillna(0))    # reemplazar
print(s.dropna())     # eliminar


0    False
1     True
2    False
dtype: bool
0    10.0
1     0.0
2    30.0
dtype: float64
0    10.0
2    30.0
dtype: float64


### **Métodos estadísticos y de exploración**

Las `Series` incluyen métodos integrados para describir los datos de forma rápida. Ahorran tiempo en el análisis preliminar y facilitan la exploración inicial.

In [9]:
s = pd.Series([10, 20, 20, 40, 50])
print(s.describe())        # resumen estadístico
print(s.value_counts())    # frecuencias
print(s.nunique())         # número de valores únicos


count     5.000000
mean     28.000000
std      16.431677
min      10.000000
25%      20.000000
50%      20.000000
75%      40.000000
max      50.000000
dtype: float64
20    2
10    1
40    1
50    1
Name: count, dtype: int64
4


### **Transformaciones y mapeo**

Podemos aplicar funciones sobre los elementos de una Series. Se emplean para limpiar o transformar variables, como normalizar categorías o crear nuevas codificaciones.

In [10]:
s = pd.Series(["A", "B", "A", "C"])
print(s.map({"A":"Alpha", "B":"Beta"}))
print(s.replace({"C":"Gamma"}))


0    Alpha
1     Beta
2    Alpha
3      NaN
dtype: object
0        A
1        B
2        A
3    Gamma
dtype: object


### **Accesores especiales (.str, .dt, .cat)**

Pandas proporciona accesores para trabajar con tipos de datos específicos.
- **Texto (`.str`):** limpieza de strings.  
- **Fechas (`.dt`):** extraer componentes de fechas.  
- **Categóricos (`.cat`):** manipular categorías.  

Estos accesores permiten transformar datos textuales o temporales de forma vectorizada.

In [None]:
nombres = pd.Series(["  ana  ", "LUIS", "sofia"])
print(nombres.str.strip().str.title()) # limpiar y formatear

fechas = pd.Series(pd.date_range("2025-01-01", periods=3))
print(fechas.dt.year) # extraer el año


0      Ana
1     Luis
2    Sofia
dtype: object
0    2025
1    2025
2    2025
dtype: int32


### **Reindexación y ordenamiento**

Podemos reordenar, añadir índices o cambiar el orden de los datos. En datos empresariales no siempre todos los índices existen; la reindexación permite homogenizar conjuntos.

In [12]:
s = pd.Series({"A":10, "C":30})
print(s.reindex(["A","B","C"], fill_value=0)) # reindexar con relleno


A    10
B     0
C    30
dtype: int64


### **Lectura de datos desde archivos**

Una de las mayores fortalezas de Pandas es la facilidad para cargar datos reales desde múltiples formatos. El trabajo en analítica siempre comienza con datos en archivos (CSV, Excel, SQL, JSON).

In [14]:
# CSV
s = pd.read_csv("ventas.csv", usecols=["ventas"])["ventas"]
print(s)


0     454
1     261
2     125
3     200
4     368
     ... 
95    181
96    420
97    317
98    282
99    492
Name: ventas, Length: 100, dtype: int64


In [15]:
# Excel
s=pd.read_excel("ventas.xlsx",sheet_name="Hoja1")["ventas"]
print(s)

ImportError: Missing optional dependency 'openpyxl'.  Use pip or conda to install openpyxl.

In [None]:
%pip install openpyxl # instalación de dependencia para Excel

In [16]:
# JSON
s = pd.read_json("ventas.json")["ventas"]
print(s)

0     454
1     261
2     125
3     200
4     368
     ... 
95    181
96    420
97    317
98    282
99    492
Name: ventas, Length: 100, dtype: int64


De esta manera, una columna de cualquier archivo puede convertirse en una Series directamente.

## **Pandas DataFrame**

### **Definición**

Un DataFrame es la estructura principal de Pandas: una tabla bidimensional con filas y columnas.
- Cada columna es una Series.  
- Cada fila tiene un índice único.  
- Los nombres de las columnas son etiquetas que permiten acceder fácilmente a los datos.  

Representa datos de manera muy similar a una hoja de Excel o una tabla en SQL, pero con toda la potencia de Python para análisis, limpieza y transformación.

In [17]:
df = pd.DataFrame({"producto": ["A", "B", "C"],"ventas": [100, 150, 200],"precio": [20, 15, 10]})
print(df)

  producto  ventas  precio
0        A     100      20
1        B     150      15
2        C     200      10


### **Creación de DataFrames**

 Los DataFrames pueden crearse desde múltiples fuentes:   
- Diccionarios de listas o arrays (estructura más común).  
- Diccionarios de diccionarios.  
- Listas de diccionarios.  
- Lectura de archivos (CSV, Excel, JSON, SQL).

In [19]:
# Diccionario de listas
df=pd.DataFrame({"producto": ["A", "B", "C"], "ventas":[100, 200, 300]})
print(df)

  producto  ventas
0        A     100
1        B     200
2        C     300


In [20]:
# Lista de diccionarios
df2=pd.DataFrame([{"producto":"A","ventas":100}, {"producto":"B", "ventas":200}])
print(df2)

  producto  ventas
0        A     100
1        B     200


### **Lectura y escritura (I/O)**

 Una de las funciones más potentes de Pandas es trabajar con datos en múltiples formatos. La lectura de archivos es igual que en la anterior sección cuando se explicó `Series`, pero ahora los archivos contienen varias columnas

In [53]:
# CSV
df = pd.read_csv("ventas_df.csv")
print(df)

    ventas  precios
0      105      282
1      244      127
2      311      265
3      443      102
4      342      208
..     ...      ...
95     395      288
96     307      253
97     329      132
98     168      195
99     189      126

[100 rows x 2 columns]


In [22]:
# Excel
df = pd.read_excel("ventas_df.xlsx", sheet_name="Hoja1")
print(df)

ImportError: Missing optional dependency 'openpyxl'.  Use pip or conda to install openpyxl.

In [54]:
# JSON
df = pd.read_json("ventas_df.json")
print(df)

    ventas  precios
0      105      282
1      244      127
2      311      265
3      443      102
4      342      208
..     ...      ...
95     395      288
96     307      253
97     329      132
98     168      195
99     189      126

[100 rows x 2 columns]


In [55]:
# Escribir
df.to_csv("salida.csv", index=False)
#df.to_excel("salida.xlsx", index=False)

### **Exploración inicial y metadatos**

Al cargar datos, lo primero es explorar y describir el DataFrame. Esto permite tener un panorama rápido de la calidad y estructura de los datos leídos.

In [56]:
df.head(10)      # primeras n filas

Unnamed: 0,ventas,precios
0,105,282
1,244,127
2,311,265
3,443,102
4,342,208
5,312,246
6,284,218
7,175,140
8,340,213
9,317,250


In [57]:
df.tail(10)      # últimas n filas

Unnamed: 0,ventas,precios
90,267,147
91,463,126
92,345,132
93,235,204
94,333,209
95,395,288
96,307,253
97,329,132
98,168,195
99,189,126


In [58]:
df.shape       # dimensiones (filas, columnas)

(100, 2)

In [59]:
df.info()      # resumen de columnas, tipos y valores nulos

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 2 columns):
 #   Column   Non-Null Count  Dtype
---  ------   --------------  -----
 0   ventas   100 non-null    int64
 1   precios  100 non-null    int64
dtypes: int64(2)
memory usage: 1.7 KB


In [60]:
df.describe()  # estadísticas de columnas numéricas

Unnamed: 0,ventas,precios
count,100.0,100.0
mean,298.9,180.79
std,108.555297,78.234599
min,102.0,51.0
25%,216.5,117.0
50%,312.0,193.5
75%,374.25,253.5
max,496.0,299.0


In [61]:
df.columns     # nombres de columnas

Index(['ventas', 'precios'], dtype='object')

In [62]:
df.dtypes      # tipos de datos de columnas

ventas     int64
precios    int64
dtype: object

### **Acceso a columnas y filas**

 Nos permitirá extraer subconjuntos de datos para análisis puntual.  
- **Columnas:** como atributos o usando corchetes.  
- **Filas:** con `.loc` (por etiqueta) o `.iloc` (por posición).

In [63]:
df["ventas"]        # columna


0     105
1     244
2     311
3     443
4     342
     ... 
95    395
96    307
97    329
98    168
99    189
Name: ventas, Length: 100, dtype: int64

In [65]:
df[["precios","ventas"]]  # varias columnas


Unnamed: 0,precios,ventas
0,282,105
1,127,244
2,265,311
3,102,443
4,208,342
...,...,...
95,288,395
96,253,307
97,132,329
98,195,168


In [66]:
df.loc[0] # fila por etiqueta (en este caso, la primera fila de todas las columnas)

ventas     105
precios    282
Name: 0, dtype: int64

In [67]:
df.iloc[0]          # fila por posición

ventas     105
precios    282
Name: 0, dtype: int64

### **Selección y filtrado**

Podemos aplicar condiciones lógicas para filtrar filas. Nos permite segmentar datos como si aplicáramos filtros en Excel o cláusulas `WHERE` en `SQL`.

In [68]:
df[df["ventas"] > 300]

Unnamed: 0,ventas,precios
2,311,265
3,443,102
4,342,208
5,312,246
8,340,213
9,317,250
13,326,294
14,371,240
15,415,205
18,404,67


In [69]:
df[(df["ventas"] > 400) & (df["precios"] < 100)]

Unnamed: 0,ventas,precios
18,404,67
23,414,79
53,460,51
57,490,58
62,490,63
79,476,63
89,433,83


### **Agregación y estadísticas**

Los DataFrames permiten resumir la información fácilmente. Calcular KPIs (ventas totales, promedio de precios, etc.).

In [70]:
df["ventas"].sum()       # suma total

np.int64(29890)

In [71]:
df.mean(numeric_only=True)   # promedio de columnas numéricas

ventas     298.90
precios    180.79
dtype: float64

In [73]:
df.agg({"ventas":"sum", "precios":"mean"})  # múltiples métricas

ventas     29890.00
precios      180.79
dtype: float64

### **Transformación de columnas**

Podemos crear o modificar columnas a partir de operaciones. Útil para generar nuevas variables de negocio (ingresos, margen, descuento).

In [76]:
df["ingresos"] = df["ventas"] * df["precios"]
print(df[["ingresos"]])

    ingresos
0      29610
1      30988
2      82415
3      45186
4      71136
..       ...
95    113760
96     77671
97     43428
98     32760
99     23814

[100 rows x 1 columns]


### **Manejo de valores faltantes:**

 Al igual que en Series, los DataFrames ofrecen herramientas para detectar y tratar valores nulos. Nos permite preparar conjuntos de datos (datasets) reales donde suelen existir datos incompletos.

In [77]:
df.isna()           # detecta valores nulos

Unnamed: 0,ventas,precios,ingresos
0,False,False,False
1,False,False,False
2,False,False,False
3,False,False,False
4,False,False,False
...,...,...,...
95,False,False,False
96,False,False,False
97,False,False,False
98,False,False,False


In [78]:
df.fillna(0)        # reemplaza nulos por 0

Unnamed: 0,ventas,precios,ingresos
0,105,282,29610
1,244,127,30988
2,311,265,82415
3,443,102,45186
4,342,208,71136
...,...,...,...
95,395,288,113760
96,307,253,77671
97,329,132,43428
98,168,195,32760


In [79]:
df.dropna()         # elimina filas con nulos

Unnamed: 0,ventas,precios,ingresos
0,105,282,29610
1,244,127,30988
2,311,265,82415
3,443,102,45186
4,342,208,71136
...,...,...,...
95,395,288,113760
96,307,253,77671
97,329,132,43428
98,168,195,32760


### **Operaciones con columnas y filas**

 Llimpieza y estandarización de datasets antes de análisis.

In [80]:
df.sort_values("ventas", ascending=False)  # ordenar

Unnamed: 0,ventas,precios,ingresos
84,496,208,103168
66,490,265,129850
62,490,63,30870
57,490,58,28420
20,488,137,66856
...,...,...,...
0,105,282,29610
32,105,208,21840
27,105,80,8400
69,102,235,23970


In [81]:
df.sort_index()                          # ordenar por índice

Unnamed: 0,ventas,precios,ingresos
0,105,282,29610
1,244,127,30988
2,311,265,82415
3,443,102,45186
4,342,208,71136
...,...,...,...
95,395,288,113760
96,307,253,77671
97,329,132,43428
98,168,195,32760


In [82]:
df.rename(columns={"ventas":"cantidad"})# renombrar columna

Unnamed: 0,cantidad,precios,ingresos
0,105,282,29610
1,244,127,30988
2,311,265,82415
3,443,102,45186
4,342,208,71136
...,...,...,...
95,395,288,113760
96,307,253,77671
97,329,132,43428
98,168,195,32760


In [84]:
df.drop(columns="precios")                  # eliminar columna

Unnamed: 0,ventas,ingresos
0,105,29610
1,244,30988
2,311,82415
3,443,45186
4,342,71136
...,...,...
95,395,113760
96,307,77671
97,329,43428
98,168,32760


In [85]:
df.drop(index=0)                         # eliminar fila

Unnamed: 0,ventas,precios,ingresos
1,244,127,30988
2,311,265,82415
3,443,102,45186
4,342,208,71136
5,312,246,76752
...,...,...,...
95,395,288,113760
96,307,253,77671
97,329,132,43428
98,168,195,32760


### **Agrupaciones (groupby)**

Una de las funciones más poderosas de Pandas: agrupar y resumir datos. Permite calcular métricas agregadas (ej. ventas totales por producto).

In [86]:
df=pd.DataFrame({"producto":["A","B","A","C","B"], "ventas":[10,20,15,30,25],"precio":[100,80,100,50,80]})

In [87]:
df.groupby("producto")["ventas"].sum()

producto
A    25
B    45
C    30
Name: ventas, dtype: int64

In [88]:
df.groupby("producto").agg({"ventas":"sum","precio":"mean"})

Unnamed: 0_level_0,ventas,precio
producto,Unnamed: 1_level_1,Unnamed: 2_level_1
A,25,100.0
B,45,80.0
C,30,50.0


### **Combinar y unir DataFrames**

Podemos juntar información proveniente de diferentes fuentes. Nos permite integrar datasets en un pipeline de análisis.

In [89]:
# Concatenación
df1 = pd.DataFrame({"A":[1,2], "B":[3,4]})
df2 = pd.DataFrame({"A":[5,6], "B":[7,8]})
pd.concat([df1, df2])

Unnamed: 0,A,B
0,1,3
1,2,4
0,5,7
1,6,8


In [90]:
# Merge (similar a JOIN en SQL)
productos = pd.DataFrame({"id":[1,2], "nombre":["A","B"]})
ventas = pd.DataFrame({"id":[1,2,1], "cantidad":[5,3,2]})
pd.merge(productos, ventas, on="id")

Unnamed: 0,id,nombre,cantidad
0,1,A,5
1,1,A,2
2,2,B,3


En esta primera parte revisamos los fundamentos de Python para Big Data y BI: manejo de tipos de datos, funciones de entrada y salida, uso de colecciones (listas, tuplas y diccionarios), definición de funciones y aplicación de condicionales y ciclos para controlar el flujo del programa. Con estas herramientas ya es posible estructurar programas que no solo ejecuten instrucciones secuenciales, sino que procesen y organicen información de forma dinámica. Con esta base, estamos listos para avanzar al Tema 2 – Manipulación y limpieza de datos, paso esencial para preparar la información antes del análisis
