<a href="https://colab.research.google.com/github/vhcontre/data-analytics-con-python/blob/main/data_analytics_con_python_clase_5.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Víctor H

Hola! Soy Victor, y me encanta aprender Data Analytics con Python. Aquí van algunas cosas sobre mí:

**Fortalezas:**
- Trabajo en proyectos de software
- Me gusta aprender cosas nuevas
- Disfruto organizar y planificar

*Recuerden siempre*: la práctica hace al maestro.

Documentación oficial de Python: [Python Docs](https://docs.python.org/3/)


> “El conocimiento es poder, pero la sabiduría es aplicarlo.”


# ©️ Clase 5


## Actividad 1: Eliminación de Duplicados y Tratamiento de Datos Faltantes

- Cargar el conjunto de datos.
- Identificar y eliminar las filas duplicadas: Usarás técnicas específicas para encontrar y eliminar cualquier registro duplicado que pueda afectar la calidad de tu análisis. No olvides escribir un reporte de los hallazgos y modificaciones.
- Manejar los datos faltantes en la columna de edad, evaluando cuál es la mejor decisión, considerando que vamos a realizar un análisis enfocado en grupos etarios de los clientes. **Evaluar el impacto sobre el análisis si**:
   - Se eliminan las filas que no contienen la edad.
   - Se completa el dato con la media de la columna.

In [None]:
import pandas as pd
from google.colab import files

# ===== 1. Subir archivo Excel =====
uploaded = files.upload()
nombre_archivo = list(uploaded.keys())[0]

# ===== 2. Cargar Excel en DataFrame =====
df = pd.read_excel(nombre_archivo, engine='openpyxl')

# ===== Configuraciones para que se vea bonito =====
pd.set_option('display.float_format', '{:.2f}'.format)  # dos decimales
pd.set_option('display.max_colwidth', 25)
pd.set_option('display.width', 1000)

# ===== 3. Exploración inicial =====
print("=== Primeras filas del dataset ===")
display(df.head())

print("\n=== Últimas filas del dataset ===")
display(df.tail())

print("\n=== Resumen del DataFrame ===")
display(df.info())

print("\n=== Estadísticas descriptivas ===")
display(df.describe())

print("\n=== Valores nulos por columna ===")
display(df.isnull().sum())

total_duplicados = df.duplicated().sum()
print(f"\nCantidad de filas duplicadas: {total_duplicados}")

# ===== 4. Manejo de nulos en 'Edad' =====
# Escenario 1: eliminar filas sin edad
df_eliminar = df.dropna(subset=['Edad'])
promedio_eliminar = df_eliminar['Edad'].mean()
filas_afectadas_eliminar = df['Edad'].isnull().sum()

# Escenario 2: reemplazar nulos con media
edad_media = df['Edad'].mean()
df_reemplazar = df.copy()
df_reemplazar['Edad'].fillna(edad_media, inplace=True)
promedio_reemplazar = df_reemplazar['Edad'].mean()
filas_afectadas_reemplazar = df['Edad'].isnull().sum()

# ===== 5. Crear reporte comparativo =====
reporte_comparativo = pd.DataFrame({
    "Escenario": ["Eliminar filas sin edad", "Reemplazar nulos con media"],
    "Cantidad de filas": [df_eliminar.shape[0], df_reemplazar.shape[0]],
    "Filas afectadas (nulos)": [filas_afectadas_eliminar, filas_afectadas_reemplazar],
    "Promedio de edad": [promedio_eliminar, promedio_reemplazar]
})

print("\n=== Reporte comparativo de impacto ===")
display(reporte_comparativo)

# ===== 6. Guardar reporte en Excel =====
reporte_comparativo.to_excel("reporte_actividad1.xlsx", index=False)
print("\nReporte guardado como 'reporte_actividad1.xlsx'. Puedes descargarlo 🐍")


## Actividad 2

- Cargar el conjunto de datos.
- Corregir el tipo de datos de la columna de precio a un tipo numérico.
- Normalizar el nombre del producto para que todas las entradas estén en minúsculas y sin caracteres especiales.


| Métrica   |  Significado                                                    | ¿Cómo se interpreta?                                                                                                                                                                                                |
| --------- | ---------------------------------------------------------------- | --------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- |
| **count** | Cantidad de registros válidos (no nulos)                         | Todas las columnas tienen 100, porque no hay valores nulos en `Precio`.                                                                                                                                                           |
| **mean**  | Promedio de los precios                                          | `Precio` y `Precio_float` tienen 51.55 porque son iguales. `Precio_int` baja a 51.04 porque al truncar decimales los valores bajan un poquito. `Precio_redondeado` sube a 51.57 porque algunos precios se redondean hacia arriba. |
| **std**   | Desviación estándar: qué tan dispersos están los datos           | 26.39 en float, un poquito menos en int y redondeado, porque truncar o redondear reduce ligeramente la variabilidad.                                                                                                              |
| **min**   | Precio mínimo                                                    | 10.14 en float, 10 en int y redondeado (porque truncar baja a 10, redondear baja a 10).                                                                                                                                           |
| **25%**   | Primer cuartil (25% de los datos están por debajo de este valor) | Pequeñas diferencias por truncado/redondeo: 26.15 en float, 25.75 en int, 26 en redondeado.                                                                                                                                       |
| **50%**   | Mediana (valor central)                                          | Similar, float 54.17, int 53.50, redondeado 54.50.                                                                                                                                                                                |
| **75%**   | Tercer cuartil (75% de los datos están por debajo)               | Redondear/truncar hace que baje o suba levemente: 72.40, 71.50, 72.50.                                                                                                                                                            |
| **max**   | Precio máximo                                                    | 99.21 en float, 99 en int y redondeado, porque los decimales se pierden al truncar y redondear.                                                                                                                                   |


In [None]:
import pandas as pd
from google.colab import files

# 1️⃣ Subir archivo Excel
uploaded = files.upload()
nombre_archivo = list(uploaded.keys())[0]

# 2️⃣ Cargar Excel en un DataFrame
df = pd.read_excel(nombre_archivo, engine='openpyxl')

# 3️⃣ Guardar columna original de precios con $
df['Precio_original'] = df['Precio']

# 4️⃣ Corregir tipo de datos de la columna 'Precio'
df['Precio'] = df['Precio'].replace('[\$,]', '', regex=True).astype(float)

# 5️⃣ Normalizar el nombre del producto
df['Producto'] = df['Producto'].str.lower().str.replace(r'[^a-zA-Z0-9 ]', '', regex=True)

# 6️⃣ Crear nuevas columnas con distintas conversiones
df['Precio_float'] = df['Precio']             # Ya es float
df['Precio_int'] = df['Precio'].astype(int)   # Convertir a entero (truncando decimales)
df['Precio_redondeado'] = df['Precio'].round().astype(int)  # Redondeo al entero más cercano

# 7️⃣ Mostrar dataset final
print("Dataset con columna original y nuevas conversiones:")
display(df.head())

# 8️⃣ Generar resumen estadístico de las columnas numéricas
print("Resumen estadístico de las columnas de precios:")
display(df[['Precio', 'Precio_float', 'Precio_int', 'Precio_redondeado']].describe())

# 9️⃣ Guardar dataset final en Excel
df.to_excel("productos_normalizados_conversiones.xlsx", index=False)
print("Dataset final guardado como 'productos_normalizados_conversiones.xlsx'.")

