# Taller 1: Introducción a la Ciencia de Datos

### Datos del trabajo: 
- Autor: Jesús Ariel González Bonilla
- Fecha: 23 de Agosto 2025
- Materia: Ciencia de Datos
----

1. Definición de Ciencia de Datos:

La Ciencia de Datos es una disciplina que combina métodos estadísticos, programación y conocimiento del dominio para extraer valor de los datos. Incluye todo el ciclo: recolección, limpieza, exploración, modelado, evaluación y comunicación de resultados para apoyar la toma de decisiones basada en evidencia.

2. Roles en la Ciencia de Datos

- Científico/a de Datos: formula preguntas, construye modelos, comunica hallazgos.
- Analista de Datos: realiza consultas, dashboards y análisis descriptivos.
- Ingeniero/a de Datos: construye pipelines y plataformas para ingesta y procesamiento.
- Ingeniero/a de Machine Learning: lleva modelos a producción y los mantiene.
- Analista/Traductor/a de Negocio (BI/Product): conecta necesidades del negocio con los datos.
- Arquitecto/a de Datos: diseña la arquitectura, gobernanza y calidad de datos.

3. ¿Qué son los dataset?

Un dataset es una colección estructurada de datos, usualmente en forma de tabla (filas = registros, columnas = variables). Puede venir en formatos como CSV, Excel, JSON o bases de datos. Un buen dataset tiene metadatos (descripciones) y calidad adecuada para el análisis.

4. Líneas de código para cargar un archivo (.xls/.xlsx/.csv u otro) y pasarlo a un DataFrame (df)

Ejemplos en pandas:

```python
import pandas as pd

# CSV
df_csv = pd.read_csv('ruta/archivo.csv', encoding='utf-8')

# Excel (hoja por nombre o índice)
df_xlsx = pd.read_excel('ruta/archivo.xlsx', sheet_name='Hoja1')  # o sheet_name=0

# JSON (registros por fila)
df_json = pd.read_json('ruta/archivo.json', lines=False)

# Desde URL (si es público)
df_url = pd.read_csv('https://servidor/archivo.csv')

# Desde un zip
# pd.read_csv('ruta/datos.zip', compression='zip')

# Vista rápida
df_csv.head()
```

In [1]:
# Probar Python y definir un ejemplo mínimo
print("Hola, mundo!")

# (Opcional) Ejemplo corto de carga si se desea aquí también
# import pandas as pd
# df_ejemplo = pd.DataFrame({'a':[1,2,3]})
# df_ejemplo.head()

Hola, mundo!


5. Generar una gráfica con el anterior `df`

Crea una visualización simple para explorar el `df`. Por ejemplo, los 10 clientes con mayor `Valor Neto` total.

In [2]:
# Usar df ya cargado en la celda anterior (contiene los datos del CSV)
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

# Asegurar tipos numéricos por si vienen como texto
for col in ["Total", "IVA (%)", "Descuento (%)", "Valor Neto"]:
    df[col] = pd.to_numeric(df[col], errors="coerce")

# Agregar por cliente y ordenar
top10 = (
    df.groupby("Cliente", as_index=False)["Valor Neto"]
      .sum()
      .sort_values("Valor Neto", ascending=False)
      .head(10)
)

# Gráfico
plt.figure(figsize=(10, 5))
sns.barplot(data=top10, x="Valor Neto", y="Cliente", palette="Blues_r")
plt.title("Top 10 clientes por Valor Neto")
plt.xlabel("Valor Neto (suma)")
plt.ylabel("Cliente")
plt.tight_layout()
plt.show()

top10

NameError: name 'df' is not defined