<a href="https://colab.research.google.com/github/davidlealo/python_pluxee_academy_2025/blob/main/Clases/02_analisis_datos.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Agenda de la Clase

## Funciones y librerías

### 1. Funciones en Python
- **a)** Funciones en Python
- **b)** Ejemplos básicos
- **c)** Datasets de análisis de datos

### 2. Uso de Bibliotecas en Python
- **a)** Uso de Pandas
- **b)** Análisis de datos básico
- **c)** Análisis de datos de redes sociales


<hr style="border-top: 3px double #333; color: #333; overflow: visible; text-align: center; height: 5px;">

## Funciones en Python

Una **función** es un bloque de código reutilizable que agrupa instrucciones relacionadas para cumplir una tarea específica.  
Sirve para **organizar**, **modularizar** y **evitar la repetición** de código, además de facilitar el mantenimiento y la legibilidad.

### 1. Anatomía de una función

```python
def nombre_funcion(parámetros_opcionales):
    """Docstring: explica qué hace la función."""
    instrucciones
    return valor_opcional
```

| Parte               | Descripción                                                                                 |
|---------------------|----------------------------------------------------------------------------------------------|
| `def`               | Palabra clave que señala el inicio de la definición.                                         |
| `nombre_funcion`    | Identificador (usa snake_case).                                                              |
| `parámetros`        | Valores que la función recibe para trabajar.                                                 |
| `docstring`         | Cadena multilínea (opcional) que documenta propósito, argumentos y retorno.                  |
| Cuerpo              | Bloque indentado con las instrucciones.                                                      |
| `return` (opcional) | Devuelve un valor al llamador; si se omite, la función retorna `None`.                       |

---

### 2. Ejemplos básicos

#### 2.1 Función sin parámetros ni retorno

```python
def saluda():
    print("¡Hola, Mundo!")

saluda()        # → ¡Hola, Mundo!
```

---

#### 2.2 Función con parámetros y retorno

```python
def area_rectángulo(base, altura):
    """Calcula el área de un rectángulo."""
    return base * altura

print(area_rectángulo(5, 3))  # → 15
```

---

#### 2.3 Parámetros con valor por defecto

```python
def saluda(nombre="invitado"):
    print(f"¡Hola, {nombre}!")
    
saluda("David")  # → ¡Hola, David!
saluda()           # → ¡Hola, invitado!
```

---

#### 2.4 `*args` y `**kwargs`

```python
def muestra_argumentos(*args, **kwargs):
    print("Posicionales:", args)
    print("Nombrados   :", kwargs)

muestra_argumentos(1, 2, 3, a=10, b=20)
```

---

#### 2.5 Funciones lambda (anónimas)

```python
cuadrado = lambda x: x**2
print(cuadrado(4))           # → 16
```

---

#### 2.6 Recursividad

```python
def factorial(n):
    if n == 0:
        return 1
    return n * factorial(n-1)

print(factorial(5))          # → 120
```

---

### 3. Buenas prácticas

* Usa nombres descriptivos y **snake_case**.  
* Añade **docstrings** (`"""Triple comillas"""`) claros.  
* Mantén las funciones **cortas y con una sola responsabilidad**.  
* Evita efectos secundarios inesperados; retorna valores en lugar de imprimir dentro de la función cuando sea posible.  
* Coloca los parámetros con valor por defecto **al final** de la lista de parámetros.

---

### 4. Ejercicios propuestos

> Prueba resolverlos antes de mirar la solución 😉

| # | Enunciado |
|---|-----------|
| 1 | **Conversión de temperaturas**: crea `celsius_a_fahrenheit(c)` que reciba °C y devuelva °F. |
| 2 | **Número par o impar**: escribe `es_par(n)` que retorne `True` si `n` es par, `False` si no. |
| 3 | **Máximo común divisor** (MCD): implementa `mcd(a, b)` con el algoritmo de Euclides (recursivo). |
| 4 | **Promedio flexible**: crea `promedio(*numeros)` que acepte cualquier cantidad de valores y devuelva su media. Si no se pasa ningún valor, que retorne `None`. |
| 5 | **Contador de palabras**: define `contar_palabras(frase)` que devuelva un diccionario con la frecuencia de cada palabra (insensible a mayúsculas/minúsculas). |

---

<details>
<summary><strong>Soluciones (haz clic para desplegar)</strong></summary>

```python
# 1. Celsius a Fahrenheit
def celsius_a_fahrenheit(c):
    return c * 9/5 + 32

# 2. Par o impar
def es_par(n):
    return n % 2 == 0

# 3. Máximo común divisor (Euclides recursivo)
def mcd(a, b):
    return a if b == 0 else mcd(b, a % b)

# 4. Promedio flexible
def promedio(*numeros):
    return sum(numeros)/len(numeros) if numeros else None

# 5. Contador de palabras
def contar_palabras(frase):
    palabras = frase.lower().split()
    conteo = {}
    for p in palabras:
        conteo[p] = conteo.get(p, 0) + 1
    return conteo
```

</details>

---

### 5. Para profundizar

* **PEP 8 – Estilo de código en Python**  
* **PEP 257 – Convenciones de docstrings**  
* Módulo estándar `functools` para utilidades avanzadas (decoradores, `lru_cache`, etc.).

¡Listo! Con esto tienes una base sólida para entender y practicar funciones en Python.

# 📂 Datasets públicos de redes sociales

Este archivo reúne enlaces directos y comandos de descarga en **CSV** para que los estudiantes del curso Python Pluxee Academy 2025 puedan utilizarlos en la *Tarea 03 – Análisis de datos con Pandas*.

---
## Tabla resumen

| # | Dataset | Plataforma | Filas / Peso | Enlace directo | Instrucción de descarga |
|---|---------|------------|--------------|----------------|-------------------------|
| 1 | **Facebook Metrics** | Facebook (marca de cosméticos) | 500 / 37 KB | <https://archive.ics.uci.edu/static/public/438/dataset_facebook.csv> | ```bash
wget https://archive.ics.uci.edu/static/public/438/dataset_facebook.csv -P data/
``` |
| 2 | **Twitter US Airline Sentiment** | Twitter | 14 640 / 3.4 MB | <https://www.kaggle.com/datasets/crowdflower/twitter-airline-sentiment> | ```bash
kaggle datasets download -d crowdflower/twitter-airline-sentiment -f Tweets.csv -p data/
unzip data/Tweets.csv.zip -d data/
``` |
| 3 | **Reddit r/gaming Comments** | Reddit | 23 000 / 4 MB | <https://www.kaggle.com/datasets/sainitishmitta04/23k-reddit-gaming-comments-with-sentiments-dataset> | ```bash
kaggle datasets download -d sainitishmitta04/23k-reddit-gaming-comments-with-sentiments-dataset -p data/
unzip data/*.zip -d data/
``` |
| 4 | **Instagram Reach** | Instagram | 101 / 60 KB | <https://raw.githubusercontent.com/rxsraghavagrawal/instagram-reach/main/Instagram%20Reach.csv> | ```bash
wget "https://raw.githubusercontent.com/rxsraghavagrawal/instagram-reach/main/Instagram%20Reach.csv" -P data/
``` |

> 💡 **Nota:** Los datasets hospedados en Kaggle requieren tener configurada la API. Si no la tienes lista, sigue las instrucciones de la siguiente sección.

---
## Cómo configurar la API de Kaggle

1. Crea una cuenta en <https://kaggle.com> y ve a **Account → API → Create New API Token**. Se descargará `kaggle.json`.
2. En tu terminal o Colab:
   ```bash
   pip install kaggle
   mkdir -p ~/.kaggle
   mv ~/Downloads/kaggle.json ~/.kaggle/
   chmod 600 ~/.kaggle/kaggle.json
   ```
3. A partir de ahora, cualquier comando `kaggle datasets download …` funcionará.

---
## Ejemplo de carga en un notebook

```python
import pandas as pd

# Cargar el dataset de Facebook (ajusta la ruta si usas otro)
df = pd.read_csv("data/dataset_facebook.csv")
print(df.head())
print(df.info())
```

---

¡Listo! Copia el comando del dataset que quieras, ejecútalo en tu entorno y continúa con la tarea. 🚀



## ¿Qué es una librería en Python?

Una librería en Python es un conjunto de módulos y funciones que pueden ser reutilizados en múltiples programas. Estas librerías facilitan el desarrollo de software al proporcionar herramientas ya implementadas para realizar tareas comunes. Puedes pensar en una librería como una colección de libros donde cada libro (módulo) contiene capítulos (funciones y clases) que tratan sobre un tema específico.

### ¿Cómo usar una librería en Python?

Para usar una librería en Python, primero debes instalarla (si no está incluida en la biblioteca estándar de Python). Esto se hace generalmente con el gestor de paquetes `pip`. Una vez instalada, puedes importarla en tu script y comenzar a usar sus funciones y clases.

### Ejemplo de uso:

1. **Instalación** (desde la línea de comandos):
   ```bash
   pip install nombre_de_la_libreria


2. **Importación y uso** (en tu script Python):


   ```Python 
import nombre_de_la_libreria

# Usar una función de la librería
resultado = nombre_de_la_libreria.algun_metodo()


## Explicación del uso de Pandas

Pandas es una de las librerías más populares en Python para el análisis y manipulación de datos. Proporciona estructuras de datos fáciles de usar y herramientas para análisis de datos.

### Instalación de Pandas
Puedes instalar Pandas usando pip:

```bach
pip install pandas


### Conceptos básicos de Pandas

1. **Series:** Una Serie es una estructura de datos unidimensional similar a un array. Puede almacenar cualquier tipo de datos (enteros, cadenas, flotantes, etc.).

```Python
import pandas as pd

# Crear una Serie
s = pd.Series([1, 3, 5, np.nan, 6, 8])
print(s)


2. **DataFrame:** Un DataFrame es una estructura de datos bidimensional con etiquetas. Puede considerarse como una hoja de cálculo o una tabla SQL.

```Python 
# Crear un DataFrame
data = {'Nombre': ['Ana', 'Juan', 'Pedro', 'Luis'],
        'Edad': [28, 34, 29, 40]}
df = pd.DataFrame(data)
print(df)


## Operaciones comunes con Pandas

1. **Lectura de datos:** Pandas puede leer datos de diferentes fuentes, como archivos CSV, Excel, SQL, etc.

```Python
# Leer datos desde un archivo CSV
df = pd.read_csv('data.csv')


2. **Exploración de datos:** Puedes ver las primeras y últimas filas de un DataFrame usando *'head()'* y *'tail()'*, respectivamente.

```Python

print(df.head())
print(df.tail())


3. **Selección de datos:** Puedes seleccionar una columna específica o un subconjunto de datos.

```Python
# Seleccionar una columna
edades = df['Edad']

# Seleccionar filas por índice
filas_seleccionadas = df[0:2]


4. **Operaciones aritméticas:** Puedes realizar operaciones aritméticas en las columnas del DataFrame.

```Python
# Añadir una nueva columna calculada
df['Edad_Doble'] = df['Edad'] * 2


5. **Filtrado de datos:** Puedes filtrar datos basados en condiciones.

```Python
# Filtrar datos
mayores_de_30 = df[df['Edad'] > 30]


6. **Agrupación de datos:** Puedes agrupar datos y realizar operaciones de agregación.

```Python
# Agrupar por una columna y calcular la media
grupo_por_edad = df.groupby('Edad').mean()
