# **INICIALIZACIÓN DEL AMBIENTE**

In [1]:
# Montar los archivos de Drive al entorno de trabajo
from google.colab import drive
drive.mount('/content/drive/')

Mounted at /content/drive/


In [None]:
# Desmontar el Drive del entorno de trabajo
drive.flush_and_unmount()

In [2]:
# Importación de la librería 'Pandas' para el análisis de datos
import pandas as pd

# **ANÁLISIS VENTAS EXCEL**

In [3]:
# Ubicación del proyecto de Excel en el Drive que hemos cargado previamente
path = '/content/drive/MyDrive/Colab Notebooks/Talento Tech/Módulo 1/Actividad En Clase/Datos Brutos/Ventas.xlsx'

In [4]:
# Lectura del Excel en base al 'path' para ser convertido en un DataFrame y almacenado en una variable
df_ventas_excel = pd.read_excel(path)

In [5]:
# Visualización del DataFrame
df_ventas_excel

Unnamed: 0,Fecha,Region,Producto,Vendedor,Ventas
0,2024-01-31,Central,Accesorios,David,"8,287.00€"
1,2024-02-01,Central,Accesorios,Karen,"6,909.00€"
2,2024-02-02,Central,Dispositivos,David,"11,420.00€"
3,2024-02-03,Central,Dispositivos,Karen,"12,948.00€"
4,2024-02-04,Central,Sistemas,David,"20,098.00€"
5,2024-02-05,Central,Sistemas,Karen,"30,633.00€"
6,2024-02-06,Este,Accesorios,Ana,"9,323.00€"
7,2024-02-07,Este,Accesorios,Lucas,"7,667.00€"
8,2024-02-08,Este,Dispositivos,Ana,"10,348.00€"
9,2024-02-09,Este,Dispositivos,Lucas,"9,312.00€"


In [6]:
# Creación de nueva columna 'Moneda' que almacenará la moneda de la columna 'Ventas'
df_ventas_excel['Moneda'] = df_ventas_excel['Ventas'].str[-1]   # Convierte la columna como un string y extrae únicamente el último caracter

# Modificación de la columna 'Moneda' removiendo caracteres indeseados para pasar a ser una variable numérica
df_ventas_excel['Ventas'] = df_ventas_excel['Ventas'].str.replace(',', '').str[:-4].astype(int)   # Primero convierte la columna como string eliminado el ',' de esta;
                                                                                                  # luego necesariamente el resultado se trata como string para omitir
                                                                                                  # los últimos 4 caracteres; finalmente el resultado pasa a entero

In [7]:
# La función `head()` permite visualizar las 5 primeras filas del DataFrame
df_ventas_excel.head()

Unnamed: 0,Fecha,Region,Producto,Vendedor,Ventas,Moneda
0,2024-01-31,Central,Accesorios,David,8287,€
1,2024-02-01,Central,Accesorios,Karen,6909,€
2,2024-02-02,Central,Dispositivos,David,11420,€
3,2024-02-03,Central,Dispositivos,Karen,12948,€
4,2024-02-04,Central,Sistemas,David,20098,€


In [8]:
# La función `tail()` permite visualizar las 5 últimas filas del DataFrame
df_ventas_excel.tail()

Unnamed: 0,Fecha,Region,Producto,Vendedor,Ventas,Moneda
13,2024-02-13,Oeste,Accesorios,Sara,5442,€
14,2024-02-14,Oeste,Dispositivos,Kevin,10711,€
15,2024-02-15,Oeste,Dispositivos,Sara,8780,€
16,2024-02-16,Oeste,Sistemas,Kevin,32855,€
17,2024-02-17,Oeste,Sistemas,Sara,23151,€


In [9]:
# La función `count()` retorna la cantidad de filas por columna, útil para identificar cuántos valores nulos puedan existir
df_ventas_excel.count()

Unnamed: 0,0
Fecha,18
Region,18
Producto,18
Vendedor,18
Ventas,18
Moneda,18


In [10]:
# Retorna el nombre y tipo de las columnas del DataFrame
df_ventas_excel.columns

Index(['Fecha', 'Region', 'Producto', 'Vendedor', 'Ventas', 'Moneda'], dtype='object')

In [11]:
# Retorna la información de las DataFrame, tales como, cantidad de datos no nulos, tipos de datos y gasto de memoria
df_ventas_excel.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 18 entries, 0 to 17
Data columns (total 6 columns):
 #   Column    Non-Null Count  Dtype         
---  ------    --------------  -----         
 0   Fecha     18 non-null     datetime64[ns]
 1   Region    18 non-null     object        
 2   Producto  18 non-null     object        
 3   Vendedor  18 non-null     object        
 4   Ventas    18 non-null     int64         
 5   Moneda    18 non-null     object        
dtypes: datetime64[ns](1), int64(1), object(4)
memory usage: 992.0+ bytes


In [12]:
# Retorna información estadística de las variables cuantitativas del DataFrame como por ejemplo:
  # Cantidad de datos; Media; Valor mínimo; Primer cuartil; Segundo cuartil; Tercer cuartil; Valor máximo; Desviación estándar
df_ventas_excel.describe()

Unnamed: 0,Fecha,Ventas
count,18,18.0
mean,2024-02-08 12:00:00,13307.388889
min,2024-01-31 00:00:00,4744.0
25%,2024-02-04 06:00:00,8410.25
50%,2024-02-08 12:00:00,10529.5
75%,2024-02-12 18:00:00,13491.75
max,2024-02-17 00:00:00,32855.0
std,,8153.055776


## **EJERCICIOS**

### **EJERCICIOS DE VISUALIZACIÓN**

**Ejercicio 1 ~ Mostrar las primeras 4 filas del DataFrame**

In [13]:
df_ventas_excel.head(4)

Unnamed: 0,Fecha,Region,Producto,Vendedor,Ventas,Moneda
0,2024-01-31,Central,Accesorios,David,8287,€
1,2024-02-01,Central,Accesorios,Karen,6909,€
2,2024-02-02,Central,Dispositivos,David,11420,€
3,2024-02-03,Central,Dispositivos,Karen,12948,€


**Ejercicio 2 ~ Mostrar las últimas 2 filas del DataFrame**

In [14]:
df_ventas_excel.tail(2)

Unnamed: 0,Fecha,Region,Producto,Vendedor,Ventas,Moneda
16,2024-02-16,Oeste,Sistemas,Kevin,32855,€
17,2024-02-17,Oeste,Sistemas,Sara,23151,€


### **EJERCICIOS DE AGREGACIÓN Y AGRUPACIÓN**

**Ejercicio 3 ~ Calcular el total de ventas**

In [15]:
print(f"El total de ventas da como resultado: {df_ventas_excel['Ventas'].sum():,.2f}€")

El total de ventas da como resultado: 239,533.00€


**Ejercicio 4 ~ Calcular el total de ventas por región**

In [16]:
df_ventas_excel.groupby('Region')['Ventas'].sum()

Unnamed: 0_level_0,Ventas
Region,Unnamed: 1_level_1
Central,90295
Este,63555
Oeste,85683


**Ejercicio 5 ~ Calcular el promedio de ventas por producto**

In [17]:
df_ventas_excel.groupby('Producto')['Ventas'].mean()

Unnamed: 0_level_0,Ventas
Producto,Unnamed: 1_level_1
Accesorios,7062.0
Dispositivos,10586.5
Sistemas,22273.666667


**Ejercicio 6 ~ Calcular el promedio de ventas por producto redondeando a 2 decimales y ordenando de mayor a menor**

In [18]:
df_ventas_excel.groupby('Producto')['Ventas'].mean().round(2).sort_values(ascending=True)

Unnamed: 0_level_0,Ventas
Producto,Unnamed: 1_level_1
Accesorios,7062.0
Dispositivos,10586.5
Sistemas,22273.67


### **EJERCICIOS DE FILTRACIÓN**

**Ejercicio 7 ~ Filtrar el DataFrame para mostrar solo las ventas realizadas por David**

In [19]:
df_ventas_excel[df_ventas_excel['Vendedor'] == 'David']

Unnamed: 0,Fecha,Region,Producto,Vendedor,Ventas,Moneda
0,2024-01-31,Central,Accesorios,David,8287,€
2,2024-02-02,Central,Dispositivos,David,11420,€
4,2024-02-04,Central,Sistemas,David,20098,€


**Ejercicio 8 ~ Filtrar el DataFrame para mostrar las ventas de todos los vendedores menos las realizadas por David**

In [20]:
df_ventas_excel[df_ventas_excel['Vendedor'] != 'David']

Unnamed: 0,Fecha,Region,Producto,Vendedor,Ventas,Moneda
1,2024-02-01,Central,Accesorios,Karen,6909,€
3,2024-02-03,Central,Dispositivos,Karen,12948,€
5,2024-02-05,Central,Sistemas,Karen,30633,€
6,2024-02-06,Este,Accesorios,Ana,9323,€
7,2024-02-07,Este,Accesorios,Lucas,7667,€
8,2024-02-08,Este,Dispositivos,Ana,10348,€
9,2024-02-09,Este,Dispositivos,Lucas,9312,€
10,2024-02-10,Este,Sistemas,Ana,13531,€
11,2024-02-11,Este,Sistemas,Lucas,13374,€
12,2024-02-12,Oeste,Accesorios,Kevin,4744,€


**Ejercicio 9 ~ Filtrar el DataFrame para mostrar las ventas realizadas por Lucas y Ana**

In [21]:
df_ventas_excel[df_ventas_excel['Vendedor'].isin(['Lucas', 'Ana'])]

Unnamed: 0,Fecha,Region,Producto,Vendedor,Ventas,Moneda
6,2024-02-06,Este,Accesorios,Ana,9323,€
7,2024-02-07,Este,Accesorios,Lucas,7667,€
8,2024-02-08,Este,Dispositivos,Ana,10348,€
9,2024-02-09,Este,Dispositivos,Lucas,9312,€
10,2024-02-10,Este,Sistemas,Ana,13531,€
11,2024-02-11,Este,Sistemas,Lucas,13374,€


**Ejercicio 10 ~ Filtrar el DataFrame para mostrar las ventas de todos los vendedores menos las realizadas por Sara y Kevin**

In [22]:
df_ventas_excel[~df_ventas_excel['Vendedor'].isin(['Sara', 'Kevin'])]

Unnamed: 0,Fecha,Region,Producto,Vendedor,Ventas,Moneda
0,2024-01-31,Central,Accesorios,David,8287,€
1,2024-02-01,Central,Accesorios,Karen,6909,€
2,2024-02-02,Central,Dispositivos,David,11420,€
3,2024-02-03,Central,Dispositivos,Karen,12948,€
4,2024-02-04,Central,Sistemas,David,20098,€
5,2024-02-05,Central,Sistemas,Karen,30633,€
6,2024-02-06,Este,Accesorios,Ana,9323,€
7,2024-02-07,Este,Accesorios,Lucas,7667,€
8,2024-02-08,Este,Dispositivos,Ana,10348,€
9,2024-02-09,Este,Dispositivos,Lucas,9312,€


**Ejercicio 11 ~ Filtrar el DataFrame para mostrar únicamente las ventas de todos los vendedores hombres**

In [23]:
df_ventas_excel[(df_ventas_excel['Vendedor'].isin(['David', 'Lucas', 'Kevin'])) & (~df_ventas_excel['Vendedor'].isin(['Karen', 'Ana', 'Sara']))]

Unnamed: 0,Fecha,Region,Producto,Vendedor,Ventas,Moneda
0,2024-01-31,Central,Accesorios,David,8287,€
2,2024-02-02,Central,Dispositivos,David,11420,€
4,2024-02-04,Central,Sistemas,David,20098,€
7,2024-02-07,Este,Accesorios,Lucas,7667,€
9,2024-02-09,Este,Dispositivos,Lucas,9312,€
11,2024-02-11,Este,Sistemas,Lucas,13374,€
12,2024-02-12,Oeste,Accesorios,Kevin,4744,€
14,2024-02-14,Oeste,Dispositivos,Kevin,10711,€
16,2024-02-16,Oeste,Sistemas,Kevin,32855,€


### **EJERCICIOS DE ORDENAMIENTO**

**Ejercicio 12 ~ Ordenar el DataFrame por ventas en orden descendente**

In [24]:
df_ventas_excel.sort_values(by='Ventas', ascending=False)

Unnamed: 0,Fecha,Region,Producto,Vendedor,Ventas,Moneda
16,2024-02-16,Oeste,Sistemas,Kevin,32855,€
5,2024-02-05,Central,Sistemas,Karen,30633,€
17,2024-02-17,Oeste,Sistemas,Sara,23151,€
4,2024-02-04,Central,Sistemas,David,20098,€
10,2024-02-10,Este,Sistemas,Ana,13531,€
11,2024-02-11,Este,Sistemas,Lucas,13374,€
3,2024-02-03,Central,Dispositivos,Karen,12948,€
2,2024-02-02,Central,Dispositivos,David,11420,€
14,2024-02-14,Oeste,Dispositivos,Kevin,10711,€
8,2024-02-08,Este,Dispositivos,Ana,10348,€


**Ejercicio 13 ~ Ordenar el DataFrame por región en orden descendente y luego por ventas en orden ascendente**

In [25]:
df_ventas_excel.sort_values(by=['Region', 'Ventas'], ascending=[False, True])

Unnamed: 0,Fecha,Region,Producto,Vendedor,Ventas,Moneda
12,2024-02-12,Oeste,Accesorios,Kevin,4744,€
13,2024-02-13,Oeste,Accesorios,Sara,5442,€
15,2024-02-15,Oeste,Dispositivos,Sara,8780,€
14,2024-02-14,Oeste,Dispositivos,Kevin,10711,€
17,2024-02-17,Oeste,Sistemas,Sara,23151,€
16,2024-02-16,Oeste,Sistemas,Kevin,32855,€
7,2024-02-07,Este,Accesorios,Lucas,7667,€
9,2024-02-09,Este,Dispositivos,Lucas,9312,€
6,2024-02-06,Este,Accesorios,Ana,9323,€
8,2024-02-08,Este,Dispositivos,Ana,10348,€


**Ejercicio 14 ~ Filtrar las filas con ventas mayores a 15000 y ordenar de menor a mayor**

In [26]:
df_ventas_excel[df_ventas_excel['Ventas'] > 10000].sort_values(by='Ventas', ascending=True)

Unnamed: 0,Fecha,Region,Producto,Vendedor,Ventas,Moneda
8,2024-02-08,Este,Dispositivos,Ana,10348,€
14,2024-02-14,Oeste,Dispositivos,Kevin,10711,€
2,2024-02-02,Central,Dispositivos,David,11420,€
3,2024-02-03,Central,Dispositivos,Karen,12948,€
11,2024-02-11,Este,Sistemas,Lucas,13374,€
10,2024-02-10,Este,Sistemas,Ana,13531,€
4,2024-02-04,Central,Sistemas,David,20098,€
17,2024-02-17,Oeste,Sistemas,Sara,23151,€
5,2024-02-05,Central,Sistemas,Karen,30633,€
16,2024-02-16,Oeste,Sistemas,Kevin,32855,€


### **EJERCICIOS DE MANIPULACIÓN**

**Ejercicio 15 ~ Eliminar la columna vendedor**

In [27]:
df_ventas_excel.drop(columns=['Vendedor'])

Unnamed: 0,Fecha,Region,Producto,Ventas,Moneda
0,2024-01-31,Central,Accesorios,8287,€
1,2024-02-01,Central,Accesorios,6909,€
2,2024-02-02,Central,Dispositivos,11420,€
3,2024-02-03,Central,Dispositivos,12948,€
4,2024-02-04,Central,Sistemas,20098,€
5,2024-02-05,Central,Sistemas,30633,€
6,2024-02-06,Este,Accesorios,9323,€
7,2024-02-07,Este,Accesorios,7667,€
8,2024-02-08,Este,Dispositivos,10348,€
9,2024-02-09,Este,Dispositivos,9312,€


## **ANÁLISIS DATASETS**

In [28]:
# Localización de los archivos CSV en el Drive
path_1 = '/content/drive/MyDrive/Colab Notebooks/Talento Tech/Módulo 1/Actividad En Clase/Datos Brutos/Dataset 1.csv'
path_2 = '/content/drive/MyDrive/Colab Notebooks/Talento Tech/Módulo 1/Actividad En Clase/Datos Brutos/Dataset 2.csv'
path_3 = '/content/drive/MyDrive/Colab Notebooks/Talento Tech/Módulo 1/Actividad En Clase/Datos Brutos/Dataset 3.csv'

# Lectura y transformación de los archivos CSV a DataFrame por medio de los anteriores 'path'
dataset_1 = pd.read_csv(path_1, delimiter=",")
dataset_2 = pd.read_csv(path_2, delimiter=",")
dataset_3 = pd.read_csv(path_3, delimiter=",")

In [29]:
# Importación de funciones que permiten mostrar y renderizar contenido HTML dentro de una celda de código
from IPython.display import display, HTML

# Creación de código HTML para visualizar cada DataFrame uno al lado del otro
html = ("""
    <table>
        <tr>
            <td style="padding-right:100px"><h1 style="text-align:center">DataFrame 1</h1>{}</td>
            <td style="padding-right:100px"><h1 style="text-align:center">DataFrame 2</h1>{}</td>
            <td><h1 style="text-align:center">DataFrame 3</h1>{}</td>
        </tr>
    </table>
""")         # Se crea una tabla para mostrar cada DataFrame en una sola fila y con ayuda de CSS es posible dar espaciado entre estas

# Se llama a la función para interpretar el código HTML con los DataFrames en el orden que se desean visualizar
display(HTML(html.format(dataset_1.to_html(), dataset_2.to_html(), dataset_3.to_html())))

Unnamed: 0_level_0,id,weight,height,age,gender,Unnamed: 6_level_0
Unnamed: 0_level_1,id,weight,height,age,Unnamed: 5_level_1,Unnamed: 6_level_1
Unnamed: 0_level_2,id,weight,height,age,gender,income
0,1,144.5,5.9,33.0,M,
1,2,167.2,5.4,45.0,M,
2,3,124.1,5.2,23.0,F,
3,4,144.5,5.9,33.0,M,
4,5,133.2,5.7,54.0,F,
5,3,124.1,5.2,23.0,F,
6,5,129.2,5.3,42.0,M,
0,1,143.5,5.3,28.0,,
1,2,154.2,5.5,45.0,,
2,3,342.3,5.1,99.0,,

Unnamed: 0,id,weight,height,age,gender
0,1,144.5,5.9,33,M
1,2,167.2,5.4,45,M
2,3,124.1,5.2,23,F
3,4,144.5,5.9,33,M
4,5,133.2,5.7,54,F
5,3,124.1,5.2,23,F
6,5,129.2,5.3,42,M

Unnamed: 0,id,weight,height,age
0,1,143.5,5.3,28
1,2,154.2,5.5,45
2,3,342.3,5.1,99
3,4,144.5,5.5,33
4,5,133.2,5.4,54
5,6,124.1,5.1,21
6,7,129.2,5.3,42

Unnamed: 0,id,weight,height,age,gender,income
0,1,143.5,5.6,28.0,M,100000.0
1,2,167.2,5.4,45.0,M,
2,3,,5.2,,,
3,4,144.5,5.9,33.0,M,
4,5,133.2,5.7,54.0,F,
5,6,124.1,5.2,,F,
6,7,129.2,5.3,42.0,M,76000.0


In [30]:
# Nuevamente se llama a la función para visualizar a los DataFrames pero esta vez junto con la función `head(3)` para mostrar únicamente las 3 primeras filas
display(HTML(html.format(dataset_1.head(3).to_html(), dataset_2.head(3).to_html(), dataset_3.head(3).to_html())))

Unnamed: 0_level_0,id,weight,height,age,gender,Unnamed: 6_level_0
Unnamed: 0_level_1,id,weight,height,age,Unnamed: 5_level_1,Unnamed: 6_level_1
Unnamed: 0_level_2,id,weight,height,age,gender,income
0,1,144.5,5.9,33.0,M,
1,2,167.2,5.4,45.0,M,
2,3,124.1,5.2,23.0,F,
0,1,143.5,5.3,28.0,,
1,2,154.2,5.5,45.0,,
2,3,342.3,5.1,99.0,,
0,1,143.5,5.6,28.0,M,100000.0
1,2,167.2,5.4,45.0,M,
2,3,,5.2,,,
DataFrame 1  id  weight  height  age  gender  0  1  144.5  5.9  33  M  1  2  167.2  5.4  45  M  2  3  124.1  5.2  23  F,DataFrame 2  id  weight  height  age  0  1  143.5  5.3  28  1  2  154.2  5.5  45  2  3  342.3  5.1  99,DataFrame 3  id  weight  height  age  gender  income  0  1  143.5  5.6  28.0  M  100000.0  1  2  167.2  5.4  45.0  M  NaN  2  3  NaN  5.2  NaN  NaN  NaN,,,,

Unnamed: 0,id,weight,height,age,gender
0,1,144.5,5.9,33,M
1,2,167.2,5.4,45,M
2,3,124.1,5.2,23,F

Unnamed: 0,id,weight,height,age
0,1,143.5,5.3,28
1,2,154.2,5.5,45
2,3,342.3,5.1,99

Unnamed: 0,id,weight,height,age,gender,income
0,1,143.5,5.6,28.0,M,100000.0
1,2,167.2,5.4,45.0,M,
2,3,,5.2,,,


In [31]:
# Diccionario con la traducción de las columnas
traduccion = {
    'id': 'Identificación',
    'weight': 'Peso',
    'height': 'Estatura',
    'age': 'Edad',
    'gender': 'Género',
    'income': 'Ingresos'
}

# Creación de nuevos DataFrames renombrando y reemplazando las columnas en base al previo diccionario
df_traducido_1 = dataset_1.rename(columns=traduccion)
df_traducido_2 = dataset_2.rename(columns=traduccion)
df_traducido_3 = dataset_3.rename(columns=traduccion)

# Visualización de los nuevos DataFrames ya traducidos
display(HTML(html.format(df_traducido_1.to_html(), df_traducido_2.to_html(), df_traducido_3.to_html())))

Unnamed: 0_level_0,Identificación,Peso,Estatura,Edad,Género,Unnamed: 6_level_0
Unnamed: 0_level_1,Identificación,Peso,Estatura,Edad,Unnamed: 5_level_1,Unnamed: 6_level_1
Unnamed: 0_level_2,Identificación,Peso,Estatura,Edad,Género,Ingresos
0,1,144.5,5.9,33.0,M,
1,2,167.2,5.4,45.0,M,
2,3,124.1,5.2,23.0,F,
3,4,144.5,5.9,33.0,M,
4,5,133.2,5.7,54.0,F,
5,3,124.1,5.2,23.0,F,
6,5,129.2,5.3,42.0,M,
0,1,143.5,5.3,28.0,,
1,2,154.2,5.5,45.0,,
2,3,342.3,5.1,99.0,,

Unnamed: 0,Identificación,Peso,Estatura,Edad,Género
0,1,144.5,5.9,33,M
1,2,167.2,5.4,45,M
2,3,124.1,5.2,23,F
3,4,144.5,5.9,33,M
4,5,133.2,5.7,54,F
5,3,124.1,5.2,23,F
6,5,129.2,5.3,42,M

Unnamed: 0,Identificación,Peso,Estatura,Edad
0,1,143.5,5.3,28
1,2,154.2,5.5,45
2,3,342.3,5.1,99
3,4,144.5,5.5,33
4,5,133.2,5.4,54
5,6,124.1,5.1,21
6,7,129.2,5.3,42

Unnamed: 0,Identificación,Peso,Estatura,Edad,Género,Ingresos
0,1,143.5,5.6,28.0,M,100000.0
1,2,167.2,5.4,45.0,M,
2,3,,5.2,,,
3,4,144.5,5.9,33.0,M,
4,5,133.2,5.7,54.0,F,
5,6,124.1,5.2,,F,
6,7,129.2,5.3,42.0,M,76000.0


In [32]:
# Factores de conversión
lbs_to_kg = 0.453592
estatura_to_mt = 0.3048

# Copia de nuevos DataFrame para ser manipulados sin afectar los creados previamente
df_convertido_1 = df_traducido_1.copy()
df_convertido_2 = df_traducido_2.copy()
df_convertido_3 = df_traducido_3.copy()

# Conversión de las columnas de Peso y Estatura, multiplicando el valor que poseen por la conversión, finalmente redondeando el resultado a 2 decimales
df_convertido_1['Peso'] = (df_traducido_1['Peso'] * lbs_to_kg).round(2)
df_convertido_1['Estatura'] = (df_traducido_1['Estatura'] * estatura_to_mt).round(2)

df_convertido_2['Peso'] = (df_traducido_2['Peso'] * lbs_to_kg).round(2)
df_convertido_2['Estatura'] = (df_traducido_2['Estatura'] * estatura_to_mt).round(2)

df_convertido_3['Peso'] = (df_traducido_3['Peso'] * lbs_to_kg).round(2)
df_convertido_3['Estatura'] = (df_traducido_3['Estatura'] * estatura_to_mt).round(2)

# Visualización de los nuevos DataFrames ya convertidos
display(HTML(html.format(df_convertido_1.to_html(), df_convertido_2.to_html(), df_convertido_3.to_html())))

Unnamed: 0_level_0,Identificación,Peso,Estatura,Edad,Género,Unnamed: 6_level_0
Unnamed: 0_level_1,Identificación,Peso,Estatura,Edad,Unnamed: 5_level_1,Unnamed: 6_level_1
Unnamed: 0_level_2,Identificación,Peso,Estatura,Edad,Género,Ingresos
0,1,65.54,1.8,33.0,M,
1,2,75.84,1.65,45.0,M,
2,3,56.29,1.58,23.0,F,
3,4,65.54,1.8,33.0,M,
4,5,60.42,1.74,54.0,F,
5,3,56.29,1.58,23.0,F,
6,5,58.60,1.62,42.0,M,
0,1,65.09,1.62,28.0,,
1,2,69.94,1.68,45.0,,
2,3,155.26,1.55,99.0,,

Unnamed: 0,Identificación,Peso,Estatura,Edad,Género
0,1,65.54,1.8,33,M
1,2,75.84,1.65,45,M
2,3,56.29,1.58,23,F
3,4,65.54,1.8,33,M
4,5,60.42,1.74,54,F
5,3,56.29,1.58,23,F
6,5,58.6,1.62,42,M

Unnamed: 0,Identificación,Peso,Estatura,Edad
0,1,65.09,1.62,28
1,2,69.94,1.68,45
2,3,155.26,1.55,99
3,4,65.54,1.68,33
4,5,60.42,1.65,54
5,6,56.29,1.55,21
6,7,58.6,1.62,42

Unnamed: 0,Identificación,Peso,Estatura,Edad,Género,Ingresos
0,1,65.09,1.71,28.0,M,100000.0
1,2,75.84,1.65,45.0,M,
2,3,,1.58,,,
3,4,65.54,1.8,33.0,M,
4,5,60.42,1.74,54.0,F,
5,6,56.29,1.58,,F,
6,7,58.6,1.62,42.0,M,76000.0


In [33]:
# Conversión de los datos ya limpiados en archivos CSV y posteriormente ser exportados a la ubicación del Drive especificada
df_convertido_1.to_csv('/content/drive/MyDrive/Colab Notebooks/Talento Tech/Módulo 1/Actividad En Clase/Datos Procesados/Dataset Procesado 1.csv', encoding='ISO-8859-1', index=False)
df_convertido_2.to_csv('/content/drive/MyDrive/Colab Notebooks/Talento Tech/Módulo 1/Actividad En Clase/Datos Procesados/Dataset Procesado 2.csv', encoding='ISO-8859-1', index=False)
df_convertido_3.to_csv('/content/drive/MyDrive/Colab Notebooks/Talento Tech/Módulo 1/Actividad En Clase/Datos Procesados/Dataset Procesado 3.csv', encoding='ISO-8859-1', index=False)

# **ANALIZAR EXCEL POR MEDIO DE LA LIBRERÍA OPENPYXL**

In [34]:
# Descargar la librería Openpyxl la cual permite leer archivos Excel y escribir en ellos
!pip install pandas openpyxl



In [35]:
# Análisis del archivo "Ventas"

path = '/content/drive/MyDrive/Colab Notebooks/Talento Tech/Módulo 1/Actividad En Clase/Datos Excel/Ventas.xlsm'    # Ruta del archivo Excel

df_ventas = pd.read_excel(
    path,                           # Agregar la ruta del archivo Excel
    sheet_name='Datos De Ventas',   # Nombre de la hoja
    usecols='B:G',                  # Ubicación 'headers' desde la columna B hasta la G
    skiprows=1,                     # Saltar la primera fila para empezar desde la fila 2, en dónde se encuentran los 'headers'
    nrows=18,                       # Leer las 18 filas de datos
    dtype={'Ventas COP': int},      # Asignar el tipo de dato a las columans deseadas por medio de un diccionario
    engine='openpyxl'               # Especifica el motor de Excel
)

# Mostrar el DataFrame extraído
df_ventas

Unnamed: 0,Fecha,Region,Producto,Vendedor,Ventas Euros,Ventas COP
0,2024-02-16,Oeste,Sistemas,Kevin,32855,152655829
1,2024-02-05,Central,Sistemas,Karen,30633,142331639
2,2024-02-17,Oeste,Sistemas,Sara,23151,107567648
3,2024-02-04,Central,Sistemas,David,20098,93382342
4,2024-02-10,Este,Sistemas,Ana,13531,62869761
5,2024-02-11,Este,Sistemas,Lucas,13374,62140284
6,2024-02-03,Central,Dispositivos,Karen,12948,60160939
7,2024-02-02,Central,Dispositivos,David,11420,53061317
8,2024-02-14,Oeste,Dispositivos,Kevin,10711,49767054
9,2024-02-08,Este,Dispositivos,Ana,10348,48080429


## **Realizar lo anterior al archivo "Análisis Datasets", el cual tiene 3 tablas en una hoja**

In [40]:
path = '/content/drive/MyDrive/Colab Notebooks/Talento Tech/Módulo 1/Actividad En Clase/Datos Excel/Análisis Datasets.xlsm'

In [42]:
df_1 = pd.read_excel(
    path,
    sheet_name='Manos A La Obra',
    usecols='I:M',
    nrows=7,
    engine='openpyxl'
)

df_1

Unnamed: 0,id,weight,height,age,gender
0,1,144.5,5.9,33,M
1,2,167.2,5.4,45,M
2,3,124.1,5.2,23,F
3,4,144.5,5.9,33,M
4,5,133.2,5.7,54,F
5,3,124.1,5.2,23,F
6,5,129.2,5.3,42,M


In [44]:
df_2 = pd.read_excel(
    path,
    sheet_name='Manos A La Obra',
    usecols='S:V',
    nrows=7,
    engine='openpyxl',
    header=0
)

df_2

Unnamed: 0,id.1,weight.1,height.1,age.1
0,1,1435,53,28
1,2,1542,55,45
2,3,3423,51,99
3,4,1445,55,33
4,5,1332,54,54
5,6,1241,51,21
6,7,1292,53,42


In [45]:
df_3 = pd.read_excel(
    path,
    sheet_name='Manos A La Obra',
    usecols='AC:AH',
    nrows=7,
    engine='openpyxl'
)

df_3

Unnamed: 0,id.2,weight.2,height.2,age.2,gender.1,income
0,1,1435.0,56,28.0,M,1000000.0
1,2,1672.0,54,45.0,M,
2,3,,52,,,
3,4,1445.0,59,33.0,M,
4,5,1332.0,57,54.0,F,
5,6,1241.0,52,,F,
6,7,1292.0,53,42.0,M,760000.0
