<a href="https://colab.research.google.com/github/matEOTCH24/Curso-Programacion-101---Maestria-UTEC/blob/main/Clase_09/07_Manipulaci%C3%B3n_de_Datos_con_Pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<img src="https://www.ctic.uni.edu.pe/wp-content/uploads/2022/04/588px-x-348px-web-1.png" alt="HTML5 Icon" width="900" height="350" >


# **Manipulación de Datos con Pandas**


**Objetivo**

El objetivo de este laboratorio es capacitar al estudiante con las herramientas y técnicas esenciales para la manipulación de datos utilizando la biblioteca Pandas. Al final del laboratorio, el estudiante será capaz de realizar operaciones básicas y avanzadas en conjuntos de datos, combinarlos, agruparlos y extraer información útil para el análisis.

**Contenido**

1. <a href="#item31">Introducción a Pandas</a>
2. <a href="#item31">Operaciones Básicas con DataFrames</a>
3. <a href="#item31">Combinación de Datasets</a>
4. <a href="#item31">Agregación y Agrupamiento</a>

</font>
</div>


---

# 1. Introducción a Pandas



## 1.1. ¿Qué es Pandas?

Pandas es una biblioteca de código abierto para el lenguaje de programación Python, que proporciona estructuras de datos y herramientas de análisis de datos de alto rendimiento y fáciles de usar. Es fundamental en el campo de la ciencia de datos y el análisis de datos.

**Características clave de Pandas:**

- Estructuras de datos flexibles: Series y DataFrames para datos unidimensionales y bidimensionales.
- Indexación potente: Permite acceso y manipulación eficientes de datos.
- Herramientas de limpieza y preparación de datos: Funciones para manejar datos faltantes, duplicados, y más.
- Integración con otras bibliotecas: Se complementa bien con NumPy, Matplotlib, y otras.



## 1.2. Estructuras de datos en Pandas

**Series:** Estructura unidimensional similar a una columna en una tabla.

In [None]:
import pandas as pd

# Crear una Serie
s = pd.Series([1, 3, 5, 7, 9])
print(s)


**DataFrame:** Estructura bidimensional, similar a una hoja de cálculo con filas y columnas.


In [None]:
# Crear un DataFrame
data = {
    'Nombre': ['Ana', 'Luis', 'Carlos'],
    'Edad': [23, 45, 34],
    'Ciudad': ['Madrid', 'Barcelona', 'Valencia']
}

df = pd.DataFrame(data)
print(df)


## 1.3. Importación y exploración inicial de datos

Importar datos desde un archivo CSV:


In [None]:
# archivo 'datos.csv'
df = pd.read_csv('datos.csv')


**Exploración inicial:**

Ver las primeras filas:

In [None]:
print(df.head())  # Muestra las primeras 5 filas

Resumen de información:

In [None]:
print(df.info())  # Información sobre tipos de datos y valores nulos

Estadísticas descriptivas:

In [None]:
print(df.describe())  # Estadísticas básicas de las columnas numéricas

##2. Operaciones Básicas con DataFrames



###2.1. Acceso a datos

**Conceptos clave:**

- Acceso a columnas y filas.
- Uso de loc (basado en etiquetas) y iloc (basado en posiciones).


**Ejemplo:**

In [5]:
import pandas as pd

# Crear un DataFrame de ejemplo
data = {
    'Nombre': ['Ana', 'Luis', 'Carlos', 'María'],
    'Edad': [23, 45, 34, 29],
    'Ciudad': ['Madrid', 'Barcelona', 'Valencia', 'Sevilla']
}

pddfRes = pd.DataFrame(data)
pddfRes.to_csv('out/df.csv', index=False)  # Guardar el DataFrame en un archivo CSV

In [6]:
pd.read_csv('out/df.csv')

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,23,Madrid
1,Luis,45,Barcelona
2,Carlos,34,Valencia
3,María,29,Sevilla


In [12]:
pddfRes.Nombre.tolist() #extra como lista la columna nombre

['Ana', 'Luis', 'Carlos', 'María']

In [8]:
pddfRes['Nombre']

Unnamed: 0,Nombre
0,Ana
1,Luis
2,Carlos
3,María


In [10]:
pddfRes[['Nombre','Edad']].head() #para sacar por mas headings

Unnamed: 0,Nombre,Edad
0,Ana,23
1,Luis,45
2,Carlos,34
3,María,29


In [None]:
# Acceder a una columna
edades = df['Edad']
print("Edades:")
print(edades)

In [None]:

# Acceder a múltiples columnas
nombre_ciudad = df[['Nombre', 'Ciudad']]
print("\nNombre y Ciudad:")
print(nombre_ciudad)

In [None]:
# Acceder a una fila por etiqueta
fila_ana = df.loc[0]
print("\nFila de Ana:")
print(fila_ana)

In [None]:
# Acceder a una fila por posición
fila_primera = df.iloc[0]
print("\nPrimera fila:")
print(fila_primera)


### 2.2. Selección y filtrado

Conceptos clave:

- Filtrado condicional.
- Uso de operadores lógicos (&, |, ~).

**Ejemplo:**

In [37]:
df = pd.read_csv('/content/titanic.csv') #llamamos a que python lea el archivo

In [16]:
#Location

df.loc[df.Age > 30].head() #se pueden poner filtros internos por locacion o lo que necesitemos

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
11,12,1,1,"Bonnell, Miss. Elizabeth",female,58.0,0,0,113783,26.55,C103,S


In [21]:
#index location

df.iloc[[1,2,3,4,5]] #se quedan con las filas que se me antoje, esto es lista

df.iloc[100:120] #por ejemplo tambien llamar como slicing, esto es slicing

df.iloc [100] #llama a solo un usuario, esto es solo 1

Unnamed: 0,100
PassengerId,101
Survived,0
Pclass,3
Name,"Petranec, Miss. Matilda"
Sex,female
Age,28.0
SibSp,0
Parch,0
Ticket,349245
Fare,7.8958


In [32]:
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [38]:
df[df.Embarked.isin(['C'])].head() #isin(listado)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C
19,20,1,3,"Masselmani, Mrs. Fatima",female,,0,0,2649,7.225,,C
26,27,0,3,"Emir, Mr. Farred Chehab",male,,0,0,2631,7.225,,C
30,31,0,1,"Uruchurtu, Don. Manuel E",male,40.0,0,0,PC 17601,27.7208,,C


In [49]:
#filtremos el dataframe de titanic en mujeres de primera clase menores de 20 años
#Cuantos registros tienen el dataset?

condition1 = df['Sex'] == 'female' #Trabajaremos asi a apartir de ahora que es mas seguro xd
condition2 = df['Pclass'] == 1
condition3 = df['Age'] < 20

res = df[condition1 & condition2 & condition3] #se genera la nueva lista con las condiciones creadas


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
136,137,1,1,"Newsom, Miss. Helen Monypeny",female,19.0,0,2,11752,26.2833,D47,S
291,292,1,1,"Bishop, Mrs. Dickinson H (Helen Walton)",female,19.0,1,0,11967,91.0792,B49,C
297,298,0,1,"Allison, Miss. Helen Loraine",female,2.0,1,2,113781,151.55,C22 C26,S
307,308,1,1,"Penasco y Castellana, Mrs. Victor de Satode (M...",female,17.0,1,0,PC 17758,108.9,C65,C
311,312,1,1,"Ryerson, Miss. Emily Borie",female,18.0,2,2,PC 17608,262.375,B57 B59 B63 B66,C
329,330,1,1,"Hippach, Miss. Jean Gertrude",female,16.0,0,1,111361,57.9792,B18,C
435,436,1,1,"Carter, Miss. Lucile Polk",female,14.0,1,2,113760,120.0,B96 B98,S
504,505,1,1,"Maioni, Miss. Roberta",female,16.0,0,0,110152,86.5,B79,S
585,586,1,1,"Taussig, Miss. Ruth",female,18.0,0,2,110413,79.65,E68,S
689,690,1,1,"Madill, Miss. Georgette Alexandra",female,15.0,0,1,24160,211.3375,B5,S


In [51]:
res.Survived.mean() #saca la media de las condiciones ya filtradas, osea se trabaja como una nueva lista

0.9285714285714286

In [52]:
res.shape

(14, 12)

In [55]:
len(res) #cuantas filas hay

14

In [54]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


In [None]:
# Filtrar por condición
mayores_30 = df[df['Edad'] > 30]
print("\nPersonas mayores de 30 años:")
print(mayores_30)

In [None]:
# Filtrar por múltiples condiciones
madrid_mayor_25 = df[(df['Ciudad'] == 'Madrid') & (df['Edad'] > 25)]
print("\nPersonas de Madrid mayores de 25 años:")
print(madrid_mayor_25)

In [None]:
# Uso de isin para múltiples valores
ciudades = df[df['Ciudad'].isin(['Madrid', 'Valencia'])]
print("\nPersonas de Madrid o Valencia:")
print(ciudades)

### 2.3. Ordenamiento de datos

**Conceptos clave:**

- Ordenar por una o varias columnas.
- Orden ascendente (ascending=True) y descendente (ascending=False).

**Ejemplo:**

In [64]:
df.sort_values(by = 'Age', ascending = False).head() #True es ascendente, y Falses es descente, sin embargo el indice no se modifica

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
630,631,1,1,"Barkworth, Mr. Algernon Henry Wilson",male,80.0,0,0,27042,30.0,A23,S
851,852,0,3,"Svensson, Mr. Johan",male,74.0,0,0,347060,7.775,,S
493,494,0,1,"Artagaveytia, Mr. Ramon",male,71.0,0,0,PC 17609,49.5042,,C
96,97,0,1,"Goldschmidt, Mr. George B",male,71.0,0,0,PC 17754,34.6542,A5,C
116,117,0,3,"Connors, Mr. Patrick",male,70.5,0,0,370369,7.75,,Q


In [65]:
df.sort_values(by = 'Age', ascending = False).reset_index() #para resetear los indices de nuevo, muy util

Unnamed: 0,index,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,630,631,1,1,"Barkworth, Mr. Algernon Henry Wilson",male,80.0,0,0,27042,30.0000,A23,S
1,851,852,0,3,"Svensson, Mr. Johan",male,74.0,0,0,347060,7.7750,,S
2,493,494,0,1,"Artagaveytia, Mr. Ramon",male,71.0,0,0,PC 17609,49.5042,,C
3,96,97,0,1,"Goldschmidt, Mr. George B",male,71.0,0,0,PC 17754,34.6542,A5,C
4,116,117,0,3,"Connors, Mr. Patrick",male,70.5,0,0,370369,7.7500,,Q
...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,859,860,0,3,"Razi, Mr. Raihed",male,,0,0,2629,7.2292,,C
887,863,864,0,3,"Sage, Miss. Dorothy Edith ""Dolly""",female,,8,2,CA. 2343,69.5500,,S
888,868,869,0,3,"van Melkebeke, Mr. Philemon",male,,0,0,345777,9.5000,,S
889,878,879,0,3,"Laleff, Mr. Kristo",male,,0,0,349217,7.8958,,S


In [None]:
# Ordenar por edad ascendente
df_ordenado_edad = df.sort_values(by='Edad')
print("\nDataFrame ordenado por edad (ascendente):")
print(df_ordenado_edad)


In [None]:

# Ordenar por edad descendente
df_ordenado_edad_desc = df.sort_values(by='Edad', ascending=False)
print("\nDataFrame ordenado por edad (descendente):")
print(df_ordenado_edad_desc)


In [None]:

# Ordenar por ciudad y luego por edad
df_ordenado_ciudad_edad = df.sort_values(by=['Ciudad', 'Edad'])
print("\nDataFrame ordenado por ciudad y edad:")
print(df_ordenado_ciudad_edad)


### 2.4. Modificación y eliminación de datos

**Conceptos clave:**

- Añadir y modificar columnas.
- Eliminar filas y columnas.

**Ejemplo:**

In [66]:
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [67]:
df['num_familiar'] = df['SibSp'] + df['Parch'] #df ['creame esta columna'] = df['Serie 1'] + num['Serie 2] otroa lista todo se puede, solo te
#pide que tiene que ser del mismo tamano

In [69]:
df['Constant'] = 1

In [70]:
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,num_familiar,Constant
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,1,1
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,1,1
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,0,1
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S,1,1
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S,0,1


In [None]:
# Añadir una nueva columna
df['Puntaje'] = [88, 92, 79, 85]
print("\nDataFrame con nueva columna 'Puntaje':")
print(df)


In [None]:
# Modificar valores
df.loc[df['Nombre'] == 'Ana', 'Edad'] = 24
print("\nDataFrame después de modificar la edad de Ana:")
print(df)


In [None]:
# Eliminar una columna
df_sin_puntaje = df.drop('Puntaje', axis=1)
print("\nDataFrame sin la columna 'Puntaje':")
print(df_sin_puntaje)


In [None]:
# Eliminar una fila
df_sin_fila = df.drop(2)  # Eliminar la fila con índice 2
print("\nDataFrame sin la fila de Carlos:")
print(df_sin_fila)

### 2.5. Manejo de datos faltantes

**Conceptos clave:**

- Identificar y tratar valores nulos (NaN).
- Métodos para eliminar o imputar datos faltantes.

**Ejemplo:**

In [None]:
# Introducir valores faltantes
df_con_nan = df.copy()
df_con_nan.loc[1, 'Edad'] = None
print("\nDataFrame con valor faltante:")
print(df_con_nan)


In [None]:
# Identificar valores faltantes
print("\nValores faltantes en 'Edad':")
print(df_con_nan['Edad'].isnull())

In [None]:

# Eliminar filas con valores faltantes
df_sin_nan = df_con_nan.dropna()
print("\nDataFrame sin filas con valores faltantes:")
print(df_sin_nan)

In [None]:
# Imputar valores faltantes
df_imputado = df_con_nan.fillna({'Edad': df_con_nan['Edad'].mean()})
print("\nDataFrame con valores faltantes imputados:")
print(df_imputado)


###2.6. Tamaño y resumen de datos

**Conceptos clave:**

- Obtener el número de filas y columnas.
- Resumen estadístico de los datos.

**Ejemplo:**

In [None]:
# Obtener el número de filas y columnas
filas, columnas = df.shape
print(f"\nEl DataFrame tiene {filas} filas y {columnas} columnas.")


In [None]:

# Listar las columnas
print("\nColumnas del DataFrame:")
print(df.columns)

In [None]:
# Resumen estadístico
print("\nResumen estadístico:")
print(df.describe())

### 2.7. Ejercicios



**Ejercicio 1**

Crea un DataFrame con la siguiente información:

- Nombre: 'Juan', 'Laura', 'Pedro', 'Carmen', 'Luis'
- Departamento: 'Ventas', 'Marketing', 'Ventas', 'Finanzas', 'Marketing'
- Salario: 50000, 60000, 55000, 65000, 62000

Tareas:

- Accede a la columna de salarios.
- Filtra los empleados del departamento de 'Marketing'.
- Ordena el DataFrame por salario de manera descendente.
- Añade una nueva columna 'Bono' que sea el 10% del salario.
- Calcula el salario total (salario + bono) y añade una columna 'SalarioTotal'.


**Ejercicio 2**

Utilizando el DataFrame del ejercicio anterior:

- Modifica el salario de 'Juan' a 52000.
- Elimina el empleado 'Pedro' del DataFrame.
- Identifica si hay datos faltantes en el DataFrame.
- Si hay datos faltantes, imputa con el valor promedio de la columna correspondiente.




**Ejercicio 3**

Crea un DataFrame con datos de ventas:

- Producto: 'Producto A', 'Producto B', 'Producto C', 'Producto D'
- Ventas Enero: 150, 200, 140, 170
- Ventas Febrero: 180, None, 160, 190

Tareas:

- Calcula el total de ventas por producto sumando 'Ventas Enero' y 'Ventas Febrero'.
- Identifica los productos con datos faltantes en 'Ventas Febrero'.
- Imputa los valores faltantes con el promedio de 'Ventas Febrero'.
- Ordena el DataFrame por total de ventas de manera ascendente.

## 3. Combinación de Datasets


### 3.1. Métodos de combinación: merge, join, concat

Pandas ofrece varias funciones para combinar y fusionar DataFrames:

- **pd.merge:** Combina DataFrames basándose en una o más claves comunes; similar a las uniones (joins) de SQL.
- **pd.DataFrame.join:** Combina DataFrames basándose en los índices.
- **pd.concat:** Une DataFrames a lo largo de un eje (filas o columnas).


### 3.2. Combinación uno a uno

**Ejemplo:**

In [None]:
# DataFrame de empleados
df_empleados = pd.DataFrame({
    'EmpleadoID': [1, 2, 3],
    'Nombre': ['John', 'Anna', 'Peter'],
    'DepartamentoID': [101, 102, 103]
})

# DataFrame de departamentos
df_departamentos = pd.DataFrame({
    'DepartamentoID': [101, 102, 103],
    'Departamento': ['HR', 'IT', 'Marketing']
})

# Combinar los DataFrames
df_combined = pd.merge(df_empleados, df_departamentos, on='DepartamentoID')
print("\nDataFrame combinado (uno a uno):")
print(df_combined)


### 3.3. Combinación muchos a uno

**Ejemplo:**

In [None]:
# DataFrame de pedidos
df_pedidos = pd.DataFrame({
    'PedidoID': [1001, 1002, 1003, 1004],
    'ClienteID': [1, 1, 2, 3],
    'Monto': [250, 150, 400, 130]
})

# DataFrame de clientes
df_clientes = pd.DataFrame({
    'ClienteID': [1, 2, 3],
    'Cliente': ['Alice', 'Bob', 'Charlie']
})

# Combinar los DataFrames
df_pedidos_clientes = pd.merge(df_pedidos, df_clientes, on='ClienteID')
print("\nDataFrame combinado (muchos a uno):")
print(df_pedidos_clientes)


### 3.4. Combinación muchos a muchos

**Ejemplo:**


In [None]:
# DataFrame de estudiantes
df_estudiantes = pd.DataFrame({
    'EstudianteID': [1, 2, 3],
    'Nombre': ['Laura', 'Kevin', 'Sophie']
})

# DataFrame de cursos
df_cursos = pd.DataFrame({
    'CursoID': [101, 102],
    'Curso': ['Matemáticas', 'Ciencias']
})

# DataFrame de inscripciones
df_inscripciones = pd.DataFrame({
    'EstudianteID': [1, 1, 2, 3, 3],
    'CursoID': [101, 102, 101, 101, 102]
})

# Combinar los DataFrames
df_full = pd.merge(pd.merge(df_inscripciones, df_estudiantes, on='EstudianteID'),
                   df_cursos, on='CursoID')
print("\nDataFrame combinado (muchos a muchos):")
print(df_full)


### 3.5. Concatenación de datasets

**Concatenación vertical (añadir filas):**

In [None]:
# DataFrames de ventas de dos meses
df_enero = pd.DataFrame({
    'Producto': ['A', 'B'],
    'Ventas': [100, 150]
})

df_febrero = pd.DataFrame({
    'Producto': ['A', 'B'],
    'Ventas': [200, 250]
})

# Concatenar los DataFrames
df_ventas = pd.concat([df_enero, df_febrero], keys=['Enero', 'Febrero'])
print("\nDataFrame concatenado (vertical):")
print(df_ventas)


**Concatenación horizontal (añadir columnas):**


In [None]:
# DataFrames de características
df_caracteristicas1 = pd.DataFrame({
    'ID': [1, 2],
    'Caracteristica1': ['X', 'Y']
})

df_caracteristicas2 = pd.DataFrame({
    'ID': [1, 2],
    'Caracteristica2': ['Z', 'W']
})

# Establecer 'ID' como índice
df_caracteristicas1.set_index('ID', inplace=True)
df_caracteristicas2.set_index('ID', inplace=True)

# Concatenar los DataFrames
df_caracteristicas = pd.concat([df_caracteristicas1, df_caracteristicas2], axis=1)
print("\nDataFrame concatenado (horizontal):")
print(df_caracteristicas)


### 3.6. Ejercicios

**Ejercicio 1**

Tienes dos DataFrames:

- df_productos con columnas ProductoID, Producto, Categoría.
- df_precios con columnas ProductoID, Precio.

Tareas:
- Realiza un merge para obtener un DataFrame que contenga toda la información de productos y sus precios.
- Experimenta con los diferentes tipos de combinación: inner, outer, left, right.
- Analiza cómo cambia el resultado con cada tipo de combinación.


**Ejercicio 2**

Tienes los siguientes DataFrames:

- df_ventas_Q1 con ventas del primer trimestre.
- df_ventas_Q2 con ventas del segundo trimestre.

Ambos tienen las mismas columnas: Producto, Ventas.

Tareas:

- Concatenar los DataFrames para tener las ventas del semestre.
- Añade una clave para identificar el trimestre al que pertenece cada fila.
- Calcula las ventas totales por producto en el semestre.


**Ejercicio 3**

Supongamos que tienes dos DataFrames con índices diferentes:

- df_empleados indexado por EmpleadoID y columnas Nombre, Departamento.
- df_salarios indexado por Nombre y columna Salario.

Tareas:

- Combina estos DataFrames utilizando join para obtener un DataFrame que contenga EmpleadoID, Nombre, Departamento y Salario.
- Asegúrate de manejar correctamente los índices para que la combinación sea exitosa.
- Identifica y maneja cualquier inconsistencia en los datos (por ejemplo, nombres que no coinciden).


## 4. Agregación y Agrupamiento


### 4.1. El proceso groupby

El método groupby permite:

- Dividir: Separar el DataFrame en grupos basados en una o más claves.
- Aplicar: Calcular una función específica en cada grupo.
- Combinar: Unir los resultados en una estructura de datos.


### 4.2. Funciones de agregación

- Sumatorias: sum()
- Promedios: mean()
- Conteos: count()
- Valores extremos: min(), max()
- Medidas de dispersión: std(), var()



**Ejemplo:**

In [None]:
# DataFrame de ventas
df_ventas = pd.DataFrame({
    'Región': ['Norte', 'Sur', 'Este', 'Oeste', 'Norte', 'Sur'],
    'Ventas': [100, 150, 200, 130, 120, 170],
    'Ganancia': [20, 30, 50, 25, 22, 35]
})

# Agrupar por 'Región' y calcular la suma de 'Ventas' y 'Ganancia'
agrupado = df_ventas.groupby('Región').agg({'Ventas': 'sum', 'Ganancia': 'sum'})
print("\nAgregación por región:")
print(agrupado)


### 4.3. Agrupamiento por múltiples claves

**Ejemplo:**

In [None]:
# Agregar una columna 'Tipo' para demostrar agrupamiento múltiple
df_ventas['Tipo'] = ['Minorista', 'Mayorista', 'Minorista', 'Minorista', 'Mayorista', 'Minorista']

# Agrupar por 'Región' y 'Tipo' y calcular el promedio de 'Ventas'
agrupado_multiple = df_ventas.groupby(['Región', 'Tipo']).mean()
print("\nAgrupación por región y tipo:")
print(agrupado_multiple)


### 4.4. Operaciones de transformación

Las transformaciones aplican una función a cada grupo y devuelven un objeto del mismo tamaño que el grupo original.

**Ejemplo:**

In [None]:
# Calcular la diferencia de cada venta respecto al promedio de su región
df_ventas['PromedioVentasRegión'] = df_ventas.groupby('Región')['Ventas'].transform('mean')
df_ventas['DiferenciaVentas'] = df_ventas['Ventas'] - df_ventas['PromedioVentasRegión']
print("\nDataFrame con transformaciones:")
print(df_ventas)


### 4.5. Ejercicios

**Ejercicio 1**

Usando el DataFrame df_ventas:

- Agrupa los datos por Región y calcula la media y suma de Ventas y Ganancia.
- Ordena los resultados de mayor a menor en función de la suma de Ventas.
- Visualiza los resultados utilizando un gráfico de barras.


**Ejercicio 2**

Tienes un DataFrame df_estudiantes con las columnas Clase, Género, Puntuación.

- Calcula la puntuación media por clase y género.
- Encuentra la puntuación máxima y mínima por clase.
- Normaliza las puntuaciones de cada estudiante restando la media de su clase.


**Ejercicio 3**

Con el DataFrame de ventas df_ventas, crea una función personalizada que calcule el rango intercuartílico (IQR) de las ventas por región.

- Define una función que calcule el IQR.
- Utiliza groupby() y agg() para aplicar esta función.
- Interpreta los resultados.

---

# Gracias por completar este laboratorio!

---