<a href="https://colab.research.google.com/github/vhcontre/data-analytics-con-python/blob/main/data_analytics_con_python_clase_3.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 😉 Víctor Hugo Contreras

Hola! Soy Victor, y me encanta aprender Data Analytics con Python. Aquí van algunas cosas sobre mí:

**Fortalezas:**
- Trabajo en proyectos de software
- Me gusta aprender cosas nuevas
- Disfruto organizar y planificar

*Recuerden siempre*: la práctica hace al maestro.

Documentación oficial de Python: [Python Docs](https://docs.python.org/3/)


> “El conocimiento es poder, pero la sabiduría es aplicarlo.”


# 📊 DATA ANALYTICS  
## Introducción a las Librerías para Análisis de Datos

---

## 🧭 Índice

- Introducción a las Librerías para Análisis de Datos  
- Fuentes de datos  
- Métodos de recopilación de datos  
- Datos sintéticos  
- Buenas prácticas  
- Obtención y limpieza de datos en Python  
- Concepto de calidad de los datos y su importancia  
- Identificación y tratamiento de valores nulos y duplicados

---

## 🎯 Objetivos de la Clase

- Familiarizarse con los diferentes tipos de parámetros  
- Repasar los alcances de las variables dentro del entorno de Python  
- Conocer las estructuras de datos propias de **NumPy** y **Pandas**  
- Obtener datos desde archivos CSV y Google Sheets

---

## 🔍 Scope (Alcance de las Variables)

El **scope** se refiere a la visibilidad y accesibilidad de las variables en diferentes partes de un programa.

### Tipos de Scope

| Tipo         | Descripción |
|--------------|-------------|
| **Local**    | Variables definidas dentro de una función. Solo accesibles dentro de esa función. |
| **Global**   | Variables definidas fuera de funciones. Accesibles desde cualquier parte del código. |
| **No Local** | Variables en un ámbito superior, no globales. Accesibles usando `nonlocal`. |

### 🔄 Resolución del Scope

Python sigue el principio **LEGB**:

- **L**ocal  
- **E**nclosing (cerramiento)  
- **G**lobal  
- **B**uilt-in  

Este orden determina cómo se busca una variable y en qué nivel se encuentra.

### 🧪 Ejemplos

#### Scope Local

```python
def mi_funcion():
   x = 10
   print(x)

mi_funcion()  # Imprime 10
print(x)      # Error: x no está definido fuera de la función
```

#### Scope Global

```python
y = 20

def otra_funcion():
   print(y)

otra_funcion()  # Imprime 20
```

#### Modificar variable global

```python
z = 30

def cambiar_global():
   global z
   z = 40

cambiar_global()
print(z)  # Imprime 40
```

#### Scope No Local

```python
def funcion_externa():
   a = 5
   def funcion_interna():
      nonlocal a
      a += 1
      print(a)

   funcion_interna()

funcion_externa()  # Imprime 6
```

---

## 📌 Importancia del Scope

Comprender el scope ayuda a prevenir conflictos de nombres y errores de referencia.  
Usar correctamente `global` y `nonlocal` permite organizar el código de forma clara y segura.

---

## 📚 Introducción a NumPy y Pandas

Python es uno de los lenguajes más populares en análisis de datos.  
Dos bibliotecas fundamentales:

### 🔢 NumPy (Numerical Python)

- Se centra en datos numéricos  
- Estructura principal: **Arrays multidimensionales**

#### Características

- Cálculos vectorizados  
- Más eficiente que listas de Python  
- Arrays unidimensionales y bidimensionales

### 📊 Pandas (Panel Data)

- Diseñada para datos estructurados  
- Estructura principal: **DataFrame**

#### Características

- Simplifica el trabajo con datos tabulares  
- Series para columnas únicas  
- Soporta múltiples formatos: CSV, Excel, SQL, etc.

---

## 🧠 Características Clave

### NumPy

- **Eficiencia**: Menor uso de memoria y mayor velocidad  
- **Funciones matemáticas**: Amplia gama de funciones estadísticas  
- **Vectorización**: Operaciones rápidas sobre arrays

### Pandas

- **Facilidad de uso**: Estructuras intuitivas  
- **Manipulación de datos**: Filtrado, agrupamiento, resumen  
- **Integración**: Compatible con otras bibliotecas

---

## 💬 Reflexión Final

Para los analistas de datos en Python:

- **NumPy**: Manejo eficiente de datos numéricos  
- **Pandas**: Estructuras complejas para datos tabulares

---

## ⚙️ Ejercicios Prácticos

### 🧪 Actividad 1: Tipo de Parámetros  
**Obligatoria**

#### 🎯 Objetivos

- Crear funciones con distintos tipos de parámetros  
- Resolver problemas comunes de datos

#### 🧠 Contexto

Mentor: **Matías**, Data Analyst en SynthData

#### 📋 Consigna

1. **Parámetros Posicionales**  
   ```python
   def multiplicar(a, b):
       return a * b
   ```

2. **Parámetros por Defecto**  
   ```python
   def bienvenida(nombre, mensaje="¡Bienvenido!"):
       return f"{mensaje}, {nombre}"
   ```

3. **Parámetros Indefinidos (*args)**  
   ```python
   def calcular_promedio(*notas):
       return sum(notas) / len(notas)
   ```

4. **Palabras Clave Indefinidas (**kwargs)**  
   ```python
   def concatena_info(nombre, **kwargs):
       info = f"Nombre: {nombre}"
       for clave, valor in kwargs.items():
           info += f", {clave}: {valor}"
       return info
   ```

> 🧠 **¿Por qué importa esto en SynthData?**  
> Permite escribir funciones flexibles y reutilizables para distintos contextos de análisis.

---

### 🧪 Actividad 2: Introducción a NumPy y Pandas  
**Obligatoria**

#### 🎯 Objetivos

- Cargar y visualizar archivos CSV, Google Sheets y Excel  
- Familiarizarse con operaciones básicas de visualización

#### 🧠 Contexto

Mentor: **Luis**, Analista de BI

#### 📋 Consigna

1. Cargar un CSV en Google Colab y visualizar sus primeras filas  
2. Repetir con una planilla de Google Sheets  
3. Investigar cómo cargar planillas de Excel en Google Colab

**Datos**:  
- `ventas.csv`  
- `ventas`  
- Planilla de Excel local

> 🧠 **¿Por qué importa esto en SynthData?**  
> Cargar datos correctamente es el primer paso para cualquier análisis confiable.




# 📋 Clase 3

## Actividad 1: Tipo de Parámetros

1. **Multiplicar:** Arranqué creando una función muy simple que recibe dos números y devuelve el producto. La probé con distintos pares de números y funciona bien.
2. **Bienvenida:** Después hice una función con un parámetro por defecto. Si no pongo un mensaje, usa el que ya está definido; si quiero, puedo personalizarlo.
3. \**Promedio con *args:** Para el promedio usé `*args`, que me deja pasar muchas notas sin tener que definir cuántas. Probé con distintas cantidades y siempre calcula bien.
4. \*\*Concatena con **kwargs:** Por último, usé `**kwargs`. Eso me permite armar información con pares clave-valor, como edad, ciudad, ocupación. Así puedo combinar datos de forma flexible.



```
# Tiene formato de código
```




In [None]:
# 1. Parámetros Posicionales
def multiplicar(a, b):
    return a * b

# Aquí estoy creando una función llamada "multiplicar" que recibe dos números y devuelve su producto.
# La pruebo con algunos valores:
print("Ejemplo multiplicar:", multiplicar(3, 4))
print("Ejemplo multiplicar:", multiplicar(7, 2))


# 2. Parámetros por Defecto
def bienvenida(nombre, mensaje="¡Bienvenido!"):
    return f"{mensaje} {nombre}"

# En este caso defino un mensaje con valor por defecto.
# Si no escribo nada en el segundo argumento, Python usa "¡Bienvenido!".
print(bienvenida("Alicia"))
print(bienvenida("Víctor", "Qué alegría verte,"))


# 3. Parámetros Indefinidos (*args)
def calcular_promedio(*notas):
    return sum(notas) / len(notas) if notas else 0

# Aquí probé con diferentes cantidades de notas, porque *args permite pasar muchos valores.
print("Promedio de 7, 8, 9:", calcular_promedio(7, 8, 9))
print("Promedio de 10, 5:", calcular_promedio(10, 5))


# 4. Parámetros de Palabras Clave Indefinidas (**kwargs)
def concatena_info(nombre, **kwargs):
    info = f"Nombre: {nombre}"
    for clave, valor in kwargs.items():
        info += f", {clave}: {valor}"
    return info

# Acá uso **kwargs, que me deja pasar pares clave-valor como edad, ciudad, etc.
print(concatena_info("Alicia", edad=30, ciudad="Córdoba", ocupación="Estudiante"))
print(concatena_info("Víctor", hobby="Música", lenguaje="Python"))


## Actividad 2: Visualización de datos.

1. Cargar un csv en Google Colab y visualizar sus primeras filas usando
Pandas.  
2. Repetir el ejercicio anterior con una planilla de Google Sheets.
3. Investigá el método para cargar planillas de Excel en Google Colab,
utilizando Pandas, y repetí el ejercicio del punto 1.
Sets de datos
1. ventas.csv
2. ventas
3. Utiliza una planilla de excel que tengas en tu PC

In [None]:
import pandas as pd
from google.colab import files
from IPython.display import display

# ===============================
# Función 1: Cargar CSV
# ===============================
def cargar_csv():
    """
    Hoy voy a cargar el CSV de ventas desde Google Drive y ver las primeras filas.

    Retorna:
    pd.DataFrame : Muestra solo las primeras filas, como pide la práctica.
    """
    url = 'https://drive.google.com/uc?id=1if-MuSk6Yj-tlExTInqX9HVbmp5_XjSj&export=download'
    df = pd.read_csv(url)
    # Nota opcional: display(df) en Colab mostraría una grilla más visual
    display(df.head())
    print(f"\nTamaño del DataFrame:{df.shape}\n")
    return df.head()


# ===============================
# Función 2: Cargar Google Sheets
# ===============================
def cargar_google_sheet():
    """
    Ahora voy a cargar la planilla de Google Sheets de ventas y ver las primeras filas.

    Retorna:
    pd.DataFrame : Muestra solo las primeras filas, siguiendo la consigna.
    """
    sheet_url = 'https://docs.google.com/spreadsheets/d/17gCQ5yArgGxU5LBU9NpgKBxBsPJ_zFi-/export?format=csv&id=17gCQ5yArgGxU5LBU9NpgKBxBsPJ_zFi-'
    df = pd.read_csv(sheet_url)
    # Nota opcional: display(df) en Colab mostraría una grilla más visual
    return df.head()


# -------------------------------
# Helper: Convertir CSV a Excel
# -------------------------------
def convertir_csv_a_excel():
    """
    Voy a subir un CSV desde mi PC y lo convierto a Excel para cumplir la práctica.

    Retorna:
    str : nombre del archivo Excel generado
    """
    uploaded = files.upload()
    nombre_csv = list(uploaded.keys())[0]

    df = pd.read_csv(nombre_csv)
    nombre_excel = 'product_dataset.xlsx'
    df.to_excel(nombre_excel, index=False)

    print(f"Archivo CSV convertido a Excel: {nombre_excel}")
    return nombre_excel


# -------------------------------
# Función 3: Cargar Excel desde archivo
# -------------------------------
def cargar_excel_local(nombre_archivo):
    """
    Ahora subo y cargo el archivo Excel que generé antes, y veo las primeras filas.

    Parámetros:
    nombre_archivo : str : nombre del archivo Excel a cargar

    Retorna:
    pd.DataFrame : Muestra solo las primeras filas
    """

    pd.set_option('display.max_columns', 6)

    df = pd.read_excel(nombre_archivo, engine='openpyxl')
    print(f"\nTamaño del DataFrame:{df.shape}\n")
    display(df.head())
    return df.head()


# ===============================
# Ejemplo de uso
# ===============================

# Cargo CSV
# print("Primeras filas del CSV:")
# print(cargar_csv(), "\n")

# Cargo Google Sheets
# print("Primeras filas de Google Sheets:")
# print(cargar_google_sheet(), "\n")

# Cargo Excel Local
archivo_excel = convertir_csv_a_excel()
print("Primeras filas del Excel convertido:")
df= cargar_excel_local(archivo_excel)