<a href="https://colab.research.google.com/github/JCaballerot/Python-Programming101/blob/main/01_Introduccion_a_Python/07_Manipulaci%C3%B3n_de_Datos_con_Pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<img src="https://www.ctic.uni.edu.pe/wp-content/uploads/2022/04/588px-x-348px-web-1.png" alt="HTML5 Icon" width="900" height="350" >


# **Manipulación de Datos con Pandas**


**Objetivo**

El objetivo de este laboratorio es capacitar al estudiante con las herramientas y técnicas esenciales para la manipulación de datos utilizando la biblioteca Pandas. Al final del laboratorio, el estudiante será capaz de realizar operaciones básicas y avanzadas en conjuntos de datos, combinarlos, agruparlos y extraer información útil para el análisis.

**Contenido**

1. <a href="#item31">Introducción a Pandas</a>
2. <a href="#item31">Operaciones Básicas con DataFrames</a>
3. <a href="#item31">Combinación de Datasets</a>
4. <a href="#item31">Agregación y Agrupamiento</a>

</font>
</div>


---

# 1. Introducción a Pandas



## 1.1. ¿Qué es Pandas?

Pandas es una biblioteca de código abierto para el lenguaje de programación Python, que proporciona estructuras de datos y herramientas de análisis de datos de alto rendimiento y fáciles de usar. Es fundamental en el campo de la ciencia de datos y el análisis de datos.

**Características clave de Pandas:**

- Estructuras de datos flexibles: Series y DataFrames para datos unidimensionales y bidimensionales.
- Indexación potente: Permite acceso y manipulación eficientes de datos.
- Herramientas de limpieza y preparación de datos: Funciones para manejar datos faltantes, duplicados, y más.
- Integración con otras bibliotecas: Se complementa bien con NumPy, Matplotlib, y otras.



## 1.2. Estructuras de datos en Pandas

**Series:** Estructura unidimensional similar a una columna en una tabla.

In [None]:
import pandas as pd

# Crear una Serie
s = pd.Series([1, 3, 5, 7, 9])
print(s)


**DataFrame:** Estructura bidimensional, similar a una hoja de cálculo con filas y columnas.


In [None]:
# Crear un DataFrame
data = {
    'Nombre': ['Ana', 'Luis', 'Carlos'],
    'Edad': [23, 45, 34],
    'Ciudad': ['Madrid', 'Barcelona', 'Valencia']
}

df = pd.DataFrame(data)
print(df)


## 1.3. Importación y exploración inicial de datos

Importar datos desde un archivo CSV:


In [None]:
# archivo 'datos.csv'
df = pd.read_csv('datos.csv')


**Exploración inicial:**

Ver las primeras filas:

In [None]:
print(df.head())  # Muestra las primeras 5 filas

Resumen de información:

In [None]:
print(df.info())  # Información sobre tipos de datos y valores nulos

Estadísticas descriptivas:

In [None]:
print(df.describe())  # Estadísticas básicas de las columnas numéricas

##2. Operaciones Básicas con DataFrames



###2.1. Acceso a datos

**Conceptos clave:**

- Acceso a columnas y filas.
- Uso de loc (basado en etiquetas) y iloc (basado en posiciones).


**Ejemplo:**

In [None]:
import pandas as pd

# Crear un DataFrame de ejemplo
data = {
    'Nombre': ['Ana', 'Luis', 'Carlos', 'María'],
    'Edad': [23, 45, 34, 29],
    'Ciudad': ['Madrid', 'Barcelona', 'Valencia', 'Sevilla']
}

df = pd.DataFrame(data)

In [None]:
# Acceder a una columna
edades = df['Edad']
print("Edades:")
print(edades)

In [None]:

# Acceder a múltiples columnas
nombre_ciudad = df[['Nombre', 'Ciudad']]
print("\nNombre y Ciudad:")
print(nombre_ciudad)

In [None]:
# Acceder a una fila por etiqueta
fila_ana = df.loc[0]
print("\nFila de Ana:")
print(fila_ana)

In [None]:
# Acceder a una fila por posición
fila_primera = df.iloc[0]
print("\nPrimera fila:")
print(fila_primera)


### 2.2. Selección y filtrado

Conceptos clave:

- Filtrado condicional.
- Uso de operadores lógicos (&, |, ~).

**Ejemplo:**

In [None]:
# Filtrar por condición
mayores_30 = df[df['Edad'] > 30]
print("\nPersonas mayores de 30 años:")
print(mayores_30)

In [None]:
# Filtrar por múltiples condiciones
madrid_mayor_25 = df[(df['Ciudad'] == 'Madrid') & (df['Edad'] > 25)]
print("\nPersonas de Madrid mayores de 25 años:")
print(madrid_mayor_25)

In [None]:
# Uso de isin para múltiples valores
ciudades = df[df['Ciudad'].isin(['Madrid', 'Valencia'])]
print("\nPersonas de Madrid o Valencia:")
print(ciudades)

### 2.3. Ordenamiento de datos

**Conceptos clave:**

- Ordenar por una o varias columnas.
- Orden ascendente (ascending=True) y descendente (ascending=False).

**Ejemplo:**

In [None]:
# Ordenar por edad ascendente
df_ordenado_edad = df.sort_values(by='Edad')
print("\nDataFrame ordenado por edad (ascendente):")
print(df_ordenado_edad)


In [None]:

# Ordenar por edad descendente
df_ordenado_edad_desc = df.sort_values(by='Edad', ascending=False)
print("\nDataFrame ordenado por edad (descendente):")
print(df_ordenado_edad_desc)


In [None]:

# Ordenar por ciudad y luego por edad
df_ordenado_ciudad_edad = df.sort_values(by=['Ciudad', 'Edad'])
print("\nDataFrame ordenado por ciudad y edad:")
print(df_ordenado_ciudad_edad)


### 2.4. Modificación y eliminación de datos

**Conceptos clave:**

- Añadir y modificar columnas.
- Eliminar filas y columnas.

**Ejemplo:**

In [None]:
# Añadir una nueva columna
df['Puntaje'] = [88, 92, 79, 85]
print("\nDataFrame con nueva columna 'Puntaje':")
print(df)


In [None]:
# Modificar valores
df.loc[df['Nombre'] == 'Ana', 'Edad'] = 24
print("\nDataFrame después de modificar la edad de Ana:")
print(df)


In [None]:
# Eliminar una columna
df_sin_puntaje = df.drop('Puntaje', axis=1)
print("\nDataFrame sin la columna 'Puntaje':")
print(df_sin_puntaje)


In [None]:
# Eliminar una fila
df_sin_fila = df.drop(2)  # Eliminar la fila con índice 2
print("\nDataFrame sin la fila de Carlos:")
print(df_sin_fila)

### 2.5. Manejo de datos faltantes

**Conceptos clave:**

- Identificar y tratar valores nulos (NaN).
- Métodos para eliminar o imputar datos faltantes.

**Ejemplo:**

In [None]:
# Introducir valores faltantes
df_con_nan = df.copy()
df_con_nan.loc[1, 'Edad'] = None
print("\nDataFrame con valor faltante:")
print(df_con_nan)


In [None]:
# Identificar valores faltantes
print("\nValores faltantes en 'Edad':")
print(df_con_nan['Edad'].isnull())

In [None]:

# Eliminar filas con valores faltantes
df_sin_nan = df_con_nan.dropna()
print("\nDataFrame sin filas con valores faltantes:")
print(df_sin_nan)

In [None]:
# Imputar valores faltantes
df_imputado = df_con_nan.fillna({'Edad': df_con_nan['Edad'].mean()})
print("\nDataFrame con valores faltantes imputados:")
print(df_imputado)


###2.6. Tamaño y resumen de datos

**Conceptos clave:**

- Obtener el número de filas y columnas.
- Resumen estadístico de los datos.

**Ejemplo:**

In [None]:
# Obtener el número de filas y columnas
filas, columnas = df.shape
print(f"\nEl DataFrame tiene {filas} filas y {columnas} columnas.")


In [None]:

# Listar las columnas
print("\nColumnas del DataFrame:")
print(df.columns)

In [None]:
# Resumen estadístico
print("\nResumen estadístico:")
print(df.describe())

### 2.7. Ejercicios



**Ejercicio 1**

Crea un DataFrame con la siguiente información:

- Nombre: 'Juan', 'Laura', 'Pedro', 'Carmen', 'Luis'
- Departamento: 'Ventas', 'Marketing', 'Ventas', 'Finanzas', 'Marketing'
- Salario: 50000, 60000, 55000, 65000, 62000

Tareas:

- Accede a la columna de salarios.
- Filtra los empleados del departamento de 'Marketing'.
- Ordena el DataFrame por salario de manera descendente.
- Añade una nueva columna 'Bono' que sea el 10% del salario.
- Calcula el salario total (salario + bono) y añade una columna 'SalarioTotal'.


**Ejercicio 2**

Utilizando el DataFrame del ejercicio anterior:

- Modifica el salario de 'Juan' a 52000.
- Elimina el empleado 'Pedro' del DataFrame.
- Identifica si hay datos faltantes en el DataFrame.
- Si hay datos faltantes, imputa con el valor promedio de la columna correspondiente.




**Ejercicio 3**

Crea un DataFrame con datos de ventas:

- Producto: 'Producto A', 'Producto B', 'Producto C', 'Producto D'
- Ventas Enero: 150, 200, 140, 170
- Ventas Febrero: 180, None, 160, 190

Tareas:

- Calcula el total de ventas por producto sumando 'Ventas Enero' y 'Ventas Febrero'.
- Identifica los productos con datos faltantes en 'Ventas Febrero'.
- Imputa los valores faltantes con el promedio de 'Ventas Febrero'.
- Ordena el DataFrame por total de ventas de manera ascendente.

## 3. Combinación de Datasets


### 3.1. Métodos de combinación: merge, join, concat

Pandas ofrece varias funciones para combinar y fusionar DataFrames:

- **pd.merge:** Combina DataFrames basándose en una o más claves comunes; similar a las uniones (joins) de SQL.
- **pd.DataFrame.join:** Combina DataFrames basándose en los índices.
- **pd.concat:** Une DataFrames a lo largo de un eje (filas o columnas).


### 3.2. Combinación uno a uno

**Ejemplo:**

In [None]:
# DataFrame de empleados
df_empleados = pd.DataFrame({
    'EmpleadoID': [1, 2, 3],
    'Nombre': ['John', 'Anna', 'Peter'],
    'DepartamentoID': [101, 102, 103]
})

# DataFrame de departamentos
df_departamentos = pd.DataFrame({
    'DepartamentoID': [101, 102, 103],
    'Departamento': ['HR', 'IT', 'Marketing']
})

# Combinar los DataFrames
df_combined = pd.merge(df_empleados, df_departamentos, on='DepartamentoID')
print("\nDataFrame combinado (uno a uno):")
print(df_combined)


### 3.3. Combinación muchos a uno

**Ejemplo:**

In [None]:
# DataFrame de pedidos
df_pedidos = pd.DataFrame({
    'PedidoID': [1001, 1002, 1003, 1004],
    'ClienteID': [1, 1, 2, 3],
    'Monto': [250, 150, 400, 130]
})

# DataFrame de clientes
df_clientes = pd.DataFrame({
    'ClienteID': [1, 2, 3],
    'Cliente': ['Alice', 'Bob', 'Charlie']
})

# Combinar los DataFrames
df_pedidos_clientes = pd.merge(df_pedidos, df_clientes, on='ClienteID')
print("\nDataFrame combinado (muchos a uno):")
print(df_pedidos_clientes)


### 3.4. Combinación muchos a muchos

**Ejemplo:**


In [None]:
# DataFrame de estudiantes
df_estudiantes = pd.DataFrame({
    'EstudianteID': [1, 2, 3],
    'Nombre': ['Laura', 'Kevin', 'Sophie']
})

# DataFrame de cursos
df_cursos = pd.DataFrame({
    'CursoID': [101, 102],
    'Curso': ['Matemáticas', 'Ciencias']
})

# DataFrame de inscripciones
df_inscripciones = pd.DataFrame({
    'EstudianteID': [1, 1, 2, 3, 3],
    'CursoID': [101, 102, 101, 101, 102]
})

# Combinar los DataFrames
df_full = pd.merge(pd.merge(df_inscripciones, df_estudiantes, on='EstudianteID'),
                   df_cursos, on='CursoID')
print("\nDataFrame combinado (muchos a muchos):")
print(df_full)


### 3.5. Concatenación de datasets

**Concatenación vertical (añadir filas):**

In [None]:
# DataFrames de ventas de dos meses
df_enero = pd.DataFrame({
    'Producto': ['A', 'B'],
    'Ventas': [100, 150]
})

df_febrero = pd.DataFrame({
    'Producto': ['A', 'B'],
    'Ventas': [200, 250]
})

# Concatenar los DataFrames
df_ventas = pd.concat([df_enero, df_febrero], keys=['Enero', 'Febrero'])
print("\nDataFrame concatenado (vertical):")
print(df_ventas)


**Concatenación horizontal (añadir columnas):**


In [None]:
# DataFrames de características
df_caracteristicas1 = pd.DataFrame({
    'ID': [1, 2],
    'Caracteristica1': ['X', 'Y']
})

df_caracteristicas2 = pd.DataFrame({
    'ID': [1, 2],
    'Caracteristica2': ['Z', 'W']
})

# Establecer 'ID' como índice
df_caracteristicas1.set_index('ID', inplace=True)
df_caracteristicas2.set_index('ID', inplace=True)

# Concatenar los DataFrames
df_caracteristicas = pd.concat([df_caracteristicas1, df_caracteristicas2], axis=1)
print("\nDataFrame concatenado (horizontal):")
print(df_caracteristicas)


### 3.6. Ejercicios

**Ejercicio 1**

Tienes dos DataFrames:

- df_productos con columnas ProductoID, Producto, Categoría.
- df_precios con columnas ProductoID, Precio.

Tareas:
- Realiza un merge para obtener un DataFrame que contenga toda la información de productos y sus precios.
- Experimenta con los diferentes tipos de combinación: inner, outer, left, right.
- Analiza cómo cambia el resultado con cada tipo de combinación.


**Ejercicio 2**

Tienes los siguientes DataFrames:

- df_ventas_Q1 con ventas del primer trimestre.
- df_ventas_Q2 con ventas del segundo trimestre.

Ambos tienen las mismas columnas: Producto, Ventas.

Tareas:

- Concatenar los DataFrames para tener las ventas del semestre.
- Añade una clave para identificar el trimestre al que pertenece cada fila.
- Calcula las ventas totales por producto en el semestre.


**Ejercicio 3**

Supongamos que tienes dos DataFrames con índices diferentes:

- df_empleados indexado por EmpleadoID y columnas Nombre, Departamento.
- df_salarios indexado por Nombre y columna Salario.

Tareas:

- Combina estos DataFrames utilizando join para obtener un DataFrame que contenga EmpleadoID, Nombre, Departamento y Salario.
- Asegúrate de manejar correctamente los índices para que la combinación sea exitosa.
- Identifica y maneja cualquier inconsistencia en los datos (por ejemplo, nombres que no coinciden).


## 4. Agregación y Agrupamiento


### 4.1. El proceso groupby

El método groupby permite:

- Dividir: Separar el DataFrame en grupos basados en una o más claves.
- Aplicar: Calcular una función específica en cada grupo.
- Combinar: Unir los resultados en una estructura de datos.


### 4.2. Funciones de agregación

- Sumatorias: sum()
- Promedios: mean()
- Conteos: count()
- Valores extremos: min(), max()
- Medidas de dispersión: std(), var()



**Ejemplo:**

In [None]:
# DataFrame de ventas
df_ventas = pd.DataFrame({
    'Región': ['Norte', 'Sur', 'Este', 'Oeste', 'Norte', 'Sur'],
    'Ventas': [100, 150, 200, 130, 120, 170],
    'Ganancia': [20, 30, 50, 25, 22, 35]
})

# Agrupar por 'Región' y calcular la suma de 'Ventas' y 'Ganancia'
agrupado = df_ventas.groupby('Región').agg({'Ventas': 'sum', 'Ganancia': 'sum'})
print("\nAgregación por región:")
print(agrupado)


### 4.3. Agrupamiento por múltiples claves

**Ejemplo:**

In [None]:
# Agregar una columna 'Tipo' para demostrar agrupamiento múltiple
df_ventas['Tipo'] = ['Minorista', 'Mayorista', 'Minorista', 'Minorista', 'Mayorista', 'Minorista']

# Agrupar por 'Región' y 'Tipo' y calcular el promedio de 'Ventas'
agrupado_multiple = df_ventas.groupby(['Región', 'Tipo']).mean()
print("\nAgrupación por región y tipo:")
print(agrupado_multiple)


### 4.4. Operaciones de transformación

Las transformaciones aplican una función a cada grupo y devuelven un objeto del mismo tamaño que el grupo original.

**Ejemplo:**

In [None]:
# Calcular la diferencia de cada venta respecto al promedio de su región
df_ventas['PromedioVentasRegión'] = df_ventas.groupby('Región')['Ventas'].transform('mean')
df_ventas['DiferenciaVentas'] = df_ventas['Ventas'] - df_ventas['PromedioVentasRegión']
print("\nDataFrame con transformaciones:")
print(df_ventas)


### 4.5. Ejercicios

**Ejercicio 1**

Usando el DataFrame df_ventas:

- Agrupa los datos por Región y calcula la media y suma de Ventas y Ganancia.
- Ordena los resultados de mayor a menor en función de la suma de Ventas.
- Visualiza los resultados utilizando un gráfico de barras.


**Ejercicio 2**

Tienes un DataFrame df_estudiantes con las columnas Clase, Género, Puntuación.

- Calcula la puntuación media por clase y género.
- Encuentra la puntuación máxima y mínima por clase.
- Normaliza las puntuaciones de cada estudiante restando la media de su clase.


**Ejercicio 3**

Con el DataFrame de ventas df_ventas, crea una función personalizada que calcule el rango intercuartílico (IQR) de las ventas por región.

- Define una función que calcule el IQR.
- Utiliza groupby() y agg() para aplicar esta función.
- Interpreta los resultados.

---

# Gracias por completar este laboratorio!

---