# 📊 Día 3 – Pandas: Series y DataFrames

## 1. Necesidad

#### Imaginá que trabajás en un banco y recibís un archivo con datos de clientes: nombre, edad, sexo, monto de préstamo, etc.
#### Si intentás analizarlo con listas o diccionarios de Python, se vuelve muy difícil:

#### Tenés que recorrer manualmente cada lista.

#### Es complicado filtrar clientes por edad o calcular promedios.

#### Si hay miles de registros, el código se vuelve largo y poco práctico.

#### Entonces nos preguntamos: ¿no habrá una herramienta que nos permita trabajar con datos en tablas, como si fuera Excel, pero dentro de Python?

#### Sí existe, y se llama Pandas.
---

## 2. Concepto: ¿Qué es Pandas?

#### 📌 Pandas es una librería externa de Python (es decir, no viene incluida por defecto, hay que instalarla) que sirve para manipular y analizar datos.

#### Se usa muchísimo en ciencia de datos, análisis financiero, estadística, machine learning, etc.
#### Lo interesante es que nos permite trabajar con datos como si fueran hojas de cálculo de Excel, pero con más flexibilidad y potencia:

- #### Podemos leer y guardar datos en CSV, Excel, SQL, JSON.

- #### Filtrar, transformar y limpiar datos muy fácilmente.

- #### Manejar grandes volúmenes de datos de forma rápida.

#### En palabras simples: `Pandas es como tener Excel dentro de Python, pero mucho más poderoso.`

#### Para usarlo, siempre lo importamos así:

#### import pandas as pd
---

## 3.1. Series

### `¿Qué es una Serie?`

#### Una Serie en Pandas es una lista con etiquetas (índices).

#### A diferencia de una lista normal de Python, donde solo podés acceder a los datos por posición (0,1,2,…), en una Serie cada dato puede tener un nombre propio (índice).

#### Esto facilita mucho el análisis porque podés trabajar con nombres en vez de posiciones.

---

### `Para entender esto, veamos un ejemplo:`

### Queremos guardar la cantidad de préstamos otorgados en una semana:

| Día       | Préstamos |
| --------- | --------- |
| Lunes     | 10        |
| Martes    | 15        |
| Miércoles | 7         |
| Jueves    | 20        |
| Viernes   | 13        |




In [None]:
prestamos = [10, 15, 7, 20, 13]

# El problema es que no sabés a qué día corresponde cada número.

#### Con Pandas:

In [11]:
import pandas as pd

# Creamos una Serie con índices personalizados
prestamos = pd.Series([10, 15, 7, 20, 13],
                    index=["Lunes", "Martes", "Miércoles", "Jueves", "Viernes"])

print(prestamos)
# si ponemos sin index, nos va a dar el mismo resultado porque pandas pandas interpreta que el segundo argumento es el index

Lunes        10
Martes       15
Miércoles     7
Jueves       20
Viernes      13
dtype: int64


#### Cada número ahora tiene una etiqueta (índice) que lo identifica.
#### Esto es lo que hace poderosa a una Serie.
---

## 3.2. DataFrame

### `¿Que es un DataFrame?` 
#### Un DataFrame es una tabla en Pandas que tiene filas y columnas, similar a una hoja de Excel, donde podés almacenar y manejar datos de forma fácil y ordenada.
#### Las personas que estan faciliarizados con Excell, saben que el marco de datos se puede almacenar en cuadricula rectangulares que pueden visualizarse facilmente. Cada marco de dato esta compuesto por filas y columnas.
#### En pandas cada fila tiene asociado un indice, al igual que cada columna, que bien puede ser un numero, o tambien puede ser un caracter. 
### `Para entender esto, veamos un ejemplo:`

### Queremos guardar datos de clientes de un banco:
| Nombre | Apellido | Edad | Sexo | Préstamo |
| ------ | -------- | ---- | ---- | -------- |
| Juan   | González | 25   | M    | 1000     |
| María  | Sánchez  | 30   | F    | 1500     |
| Carlos | López    | 28   | M    | 2000     |

### *En Pandas:*

In [12]:
import pandas as pd

# Creamos un DataFrame con un diccionario
clientes = pd.DataFrame({
    "Nombre": ["Juan", "María", "Carlos"],
    "Apellido": ["González", "Sánchez", "López"],
    "Edad": [25, 30, 28],
    "Sexo": ["M", "F", "M"],
    "Préstamo": [1000, 1500, 2000]
})

print(clientes)


   Nombre  Apellido  Edad Sexo  Préstamo
0    Juan  González    25    M      1000
1   María   Sánchez    30    F      1500
2  Carlos     López    28    M      2000


#### Cada fila tiene un índice (0,1,2 por defecto).
#### Cada columna tiene un nombre (Nombre, Apellido, Edad, etc.).

### Esto hace que sea muy fácil seleccionar, filtrar y analizar datos.
---

## 4. Ejemplos prácticos

In [14]:
print(clientes["Edad"])
# Esto es una Serie que corresponde a la columna Edad.

0    25
1    30
2    28
Name: Edad, dtype: int64


## Seleccionar varias columnas

In [15]:
print(clientes[["Nombre", "Préstamo"]])


   Nombre  Préstamo
0    Juan      1000
1   María      1500
2  Carlos      2000


## Calcular promedio de una columna

In [16]:
print(clientes["Préstamo"].mean())
# Devuelve 1500.0, que es el promedio de los préstamos.

1500.0


## 5. Ejercicios para los alumnos ✍️

#### 1. Crear una Serie con los montos de ventas de 5 días (Lunes a Viernes).

- #### Mostrar el monto de un día específico (por ejemplo, Martes).

#### 2. Crear un DataFrame con los siguientes datos de empleados:

- #### Nombre, Edad, Departamento, Sueldo.

- #### Incluir al menos 4 empleados.

#### 3. Con el DataFrame de empleados:

- #### Mostrar solo la columna “Sueldo”.

- #### Calcular el sueldo promedio.

- #### Filtrar solo los empleados mayores de 25 años.

---

## 1) Serie de ventas (Lunes a Viernes)

In [18]:
# Crear Serie con montos de ventas
ventas = pd.Series([1200, 1500, 900, 1800, 1300],
                index=["Lunes", "Martes", "Miércoles", "Jueves", "Viernes"])

print(ventas)

# Creamos una Series con 5 valores y les ponemos etiquetas (índices) con los días; imprimir muestra día → monto.

Lunes        1200
Martes       1500
Miércoles     900
Jueves       1800
Viernes      1300
dtype: int64


## 2) Mostrar el monto de un día específico (Martes)

In [20]:
# Acceder al monto del día Martes usando su etiqueta
monto_martes = ventas["Martes"]
print("Ventas del martes:", monto_martes)
# Seleccionamos por etiqueta "Martes" en la Series; luego lo imprimimos.


Ventas del martes: 1500


## 3) DataFrame de empleados (Nombre, Edad, Departamento, Sueldo)

In [21]:
# Crear DataFrame con 4 empleados
empleados = pd.DataFrame({
    "Nombre": ["Ana", "Luis", "Sofía", "Carlos"],
    "Edad": [24, 29, 31, 22],
    "Departamento": ["Finanzas", "Ventas", "Datos", "Soporte"],
    "Sueldo": [4500000, 5200000, 6000000, 4000000]  # valores de ejemplo
})

print(empleados)

# Construimos un DataFrame a partir de un diccionario: cada clave es una columna y cada lista son los valores de esa columna.

   Nombre  Edad Departamento   Sueldo
0     Ana    24     Finanzas  4500000
1    Luis    29       Ventas  5200000
2   Sofía    31        Datos  6000000
3  Carlos    22      Soporte  4000000


### `3.a) Mostrar solo la columna “Sueldo”`

In [22]:
# Selección de una sola columna (devuelve una Series)
solo_sueldo = empleados["Sueldo"]
print(solo_sueldo)

# empleados["Sueldo"] selecciona por nombre de columna y retorna una Series con los sueldos.

0    4500000
1    5200000
2    6000000
3    4000000
Name: Sueldo, dtype: int64


### `3.b) Calcular el sueldo promedio`

In [24]:
# Promedio (mean) de la columna Sueldo
sueldo_promedio = empleados["Sueldo"].mean()
print("Sueldo promedio:", sueldo_promedio)

# Usamos el método .mean() de pandas sobre la Series “Sueldo” para obtener el promedio.


Sueldo promedio: 4925000.0


### `3.c) Filtrar solo empleados mayores de 25 años`

In [None]:
# Filtro booleano por condición sobre la columna Edad
mayores_25 = empleados[empleados["Edad"] > 25]
print(mayores_25)
# Creamos una máscara booleana (empleados["Edad"] > 25) y la usamos entre corchetes para devolver solo las filas que cumplen la condición.

#### Con esto cubrimos la base de Pandas: Series y DataFrames.
#### De acá en adelante, todo el análisis de datos se construye sobre estas dos estructuras.
---

# ⚙️ Instalación de librería para Excel (`openpyxl`)

#### Un detalle importante antes de trabajar con archivos **Excel** en Pandas.

#### Pandas puede leer archivos **CSV** directamente sin problema.
#### Pero para leer archivos **Excel** necesita un **motor extra** que haga de puente.

### `Ese motor se llama **openpyxl**.`

---

### 📌 ¿Qué es `openpyxl`?

- #### Es una librería de Python que permite a Pandas **abrir y trabajar con archivos Excel** (`.xlsx`).
- #### Sin ella, Pandas no podría leer directamente los datos desde un Excel.

---

### 📌 ¿Cómo instalarla?

#### Muy simple: en la terminal (o consola) escribimos:

- #### `pip install openpyxl`

---

### 📌 ¿Por qué necesitamos instalarla?

- #### Porque **Excel no es texto plano como CSV**.
- #### Necesitamos esta librería que entiende el formato interno de Excel y se lo traduce a Pandas.

#### A partir de ahí, ya podemos usar tranquilamente `pd.read_excel("archivo.xlsx")` sin errores.

---


# Lectura de CSV y Excel

#### ahora vamos a comenzar una nueva parte del curso: lectura de archivos CSV y Excel con Pandas.

#### Antes de meternos en el código, quiero que nos detengamos un ratito a entender bien qué son estos archivos, cómo funcionan y para qué se usan.

#### Les pregunto: ¿alguien escuchó hablar de los archivos CSV?

## Explicación de CSV

#### CSV significa Comma-Separated Values, en español: valores separados por comas.

#### Un archivo CSV es un archivo de texto plano que guarda información en forma de tabla.
#### Cada fila del archivo corresponde a un registro, y cada columna está separada por una coma.

### Por ejemplo, un CSV con préstamos podría verse así:



#### Fíjense:

#### La primera fila es el encabezado (los nombres de las columnas).

#### Después vienen los datos, separados por comas.

#### Lo bueno de un CSV es que es muy liviano, rápido de leer y compatible con casi todos los programas. Se puede abrir con Excel, con Google Sheets, con el Bloc de notas, con VSCode, ¡con casi cualquier cosa!
---

## 📌 ¿Para qué sirve un CSV?

#### Entonces, ¿para qué se usa un CSV?

#### Para guardar datos en bruto, sin formato.

#### Para intercambiar información entre sistemas (ejemplo: bajar datos de un banco, exportar ventas de una tienda online, estadísticas de una app).

#### Es el formato preferido en análisis de datos porque es universal y no depende de un programa específico.
---

## Explicación de Excel

#### Ahora, muchos de ustedes seguro ya conocen Excel.
#### Excel es un archivo de hoja de cálculo (extensiones .xls o .xlsx).

## ¿En qué se diferencia de un CSV?

#### Excel permite no solo guardar datos, sino también:

- ##### aplicar fórmulas,

- #### hacer gráficos,

- #### tener varias hojas en el mismo archivo,

- #### aplicar colores y estilos.

#### Ejemplo visual con los mismos datos de antes en Excel:

#### Fíjense que acá ya se ve como una tabla bonita, con cuadrículas y todo.

#### Pero ojo: un archivo Excel es más pesado, más lento de procesar y depende de programas específicos como Microsoft Excel o Google Sheets.

## 📊 Comparación directa

#### Vamos a comparar entonces:

### *CSV:*

- #### Solo texto, sin estilos.

- #### Liviano, rápido.

- #### Compatible con cualquier sistema.

- #### Ideal para datasets grandes.

### *Excel:*

- #### Permite colores, fórmulas, gráficos, varias hojas.

- #### Más pesado y más lento.

- #### Muy usado en oficinas, contabilidad y reportes visuales.

---

## ⚖️ Diferencias principales

#### 1. Simplicidad

- #### CSV: solo guarda datos.

- #### Excel: guarda datos + formato + fórmulas + varias hojas.

#### 2. Tamaño

- #### CSV: más liviano, porque es puro texto.

- #### Excel: más pesado.

#### 3. Compatibilidad

- #### CSV: se abre en cualquier lado (Excel, Google Sheets, Notepad, Python, etc.).

- #### Excel: a veces necesita programas que lo soporten (Excel, LibreOffice, Google Sheets).

#### 4. Uso típico

- #### CSV: cuando solo importa el contenido (ej. para cargar datos en un sistema).

- #### Excel: cuando además importa la presentación (ej. reportes con gráficos y colores).


#### *En resumen:*

- #### `CSV = un cuaderno de hojas blancas, solo podés escribir texto.`

- #### `Excel = una carpeta completa, con hojas, colores, cuentas y dibujos.`
---

# 1. Necesidad

#### Imaginate que trabajás en una financiera de microcréditos.

#### Cada día, decenas de vendedores cargan información de clientes:

- #### nombre,

- #### edad,

- #### monto del crédito,

- #### y fecha de pago.

#### Toda esa información se guarda en archivos que llegan a tu computadora.
#### Algunos vendedores te pasan los datos en CSV, otros en Excel.

#### Tu jefa te pide:

- #### revisar los archivos,

- #### calcular el promedio de montos,

- #### y filtrar solo los clientes que pidieron más de 10.000.

#### Si intentaras hacerlo copiando a mano en Python, tendrías que reescribir cientos de datos, fila por fila. Sería un trabajo imposible.

#### Por eso necesitamos que Pandas nos ayude a leer archivos CSV y Excel de manera directa y automática. Así transformamos esos datos en una tabla lista para analizar.
---

## 📌 2. Concepto

#### En Pandas tenemos funciones que nos ayudan a leer archivos y convertirlos en tablas de Python.

#### Cuando usamos `pd.read_csv("archivo.csv")`
- #### Lo que hace Pandas es abrir un archivo CSV y transformarlo en un DataFrame.

#### Cuando usamos `pd.read_excel("archivo.xlsx")`
- #### Es lo mismo, pero con un archivo de Excel, que puede tener varias hojas, colores, fórmulas, etc. Pandas toma la hoja que le indiquemos y también la convierte en un DataFrame.
---

## ¿Por qué es útil esto?

- #### Sin Pandas: tendrías que copiar los datos a mano o escribir mucho código para leer línea por línea.

- #### Con Pandas: con una sola línea de código (pd.read_csv o pd.read_excel) ya tenés los datos listos en una tabla en Python.
---

# 3. Ejemplo en código

In [35]:
import pandas as pd  # Importamos pandas

# Leer un archivo CSV con funcion read_csv
# le decimos a Pandas: “abrí este archivo CSV y transformalo en un DataFrame”.
df_csv = pd.read_csv("c_s_v_prestamo.csv")
print(f"Datos desde CSV:\n {df_csv}")



Datos desde CSV:
      Cliente      Monto  Plazo
0    Mariano   14750000     18
1    Enrique   20550000     36
2     Mónica   59950000     48
3     Silvia  109800000     18
4     Gladys   49700000     12
5     Teresa  119900000      6
6     Camilo   75350000      6
7   Verónica   91650000     24
8     Tamara   83950000     18
9     Mónica  118900000     12
10   Rodrigo  117850000     12
11   Esteban    5550000     18
12  Fiorella    2400000     12
13    Noelia   86550000      6
14  Santiago   74750000     36
15    Hernán  109600000     18
16  Verónica   99600000     18
17   Yolanda   63400000     36
18    Gladys   77650000     18
19     Bruno    8600000     18


In [34]:
# Leer un archivo Excel
# pd.read_excel("excel_prestamo.xlsx"): abre el archivo Excel y devuelve un DataFrame (tabla con filas y columnas lista para analizar).
df_excel = pd.read_excel("excel_prestamo.xlsx")
print("\nDatos desde Excel:")
print(df_excel)


Datos desde Excel:
      Cliente      Monto  Plazo
0     Mariano   14750000     18
1     Enrique   20550000     36
2      Mónica   59950000     48
3      Silvia  109800000     18
4      Gladys   49700000     12
..        ...        ...    ...
145    Matías   65600000     36
146   Eduardo   35750000     48
147   Aurelia   70900000     24
148   Julieta   95650000      6
149  Fernando  135350000     48

[150 rows x 3 columns]


## 6. Ejercicios para los alumnos

# 📝 Ejercicio 1

#### Imaginá que trabajás en una **empresa de tecnología** que vende distintos productos.
#### Recibís un archivo llamado **`productos.csv`** con esta información:

- #### `Producto,Precio,Cantidad`
- #### `Laptop,1200,5`
- #### `Celular,800,10`
- #### `Tablet,600,7`
- #### `Auriculares,150,20`
- #### `Monitor,300,8`


---

### Tareas a realizar con Pandas:

#### 1. **Leer el archivo** con `pd.read_csv()`.
#### 2. Crear una **nueva columna llamada "Total"**, que sea el resultado de `Precio * Cantidad`.
#### 3. Mostrar solo las columnas **Producto** y **Total**.
#### 4. Calcular y mostrar:

- #### El **producto más caro** (según la columna Precio).
- #### El **producto con mayor Total** (Precio \* Cantidad).
#### 5. Filtrar y mostrar únicamente los productos cuyo **Total sea mayor a 5000**.

---

#### Con este ejercicio se tienen que **combinar todo lo aprendido**: lectura de archivos, selección de columnas, operaciones básicas y filtrado.
#### Es simple en código, pero obliga a **pensar la lógica paso a paso**.

---



In [39]:
import pandas as pd  # Importamos pandas

# Leer el archivo CSV
df = pd.read_csv("productos.csv")

# Crear columna Total = Precio * Cantidad
df["Total"] = df["Precio"] * df["Cantidad"]

# Mostrar solo columnas Producto y Total
print(df[["Producto", "Total"]])

# Producto más caro (usamos max sobre la columna Precio)
precio_max = df["Precio"].max()
print(f"Precio más alto: {precio_max}")

# Producto con mayor Total (usamos max sobre la columna Total)
total_max = df["Total"].max()
print(f"Total más alto: {total_max}")

# Filtrar productos con Total mayor a 5000
print("Productos con Total mayor a 5000:")
print(df[df["Total"] > 5000])



      Producto  Total
0       Laptop   6000
1      Celular   8000
2       Tablet   4200
3  Auriculares   3000
4      Monitor   2400
Precio más alto: 1200
Total más alto: 8000
Productos con Total mayor a 5000:
  Producto  Precio  Cantidad  Total
0   Laptop    1200         5   6000
1  Celular     800        10   8000


# 📝 Ejercicio Desafío 2

#### Trabajás en una **empresa de recursos humanos**.
#### Te pasan un archivo llamado **`asistencias.xlsx`** con este contenido:

| Empleado | Dias\_Trabajados | Sueldo\_Diario |
| -------- | ---------------- | -------------- |
| Ana      | 20               | 100            |
| Luis     | 22               | 95             |
| Sofía    | 18               | 110            |
| Carlos   | 25               | 90             |
| Marta    | 15               | 120            |

---

### Tareas a realizar con Pandas:

#### 1. Leer el archivo con `pd.read_excel()`.
#### 2. Calcular una **nueva columna llamada "Sueldo\_Total"** = `Dias_Trabajados * Sueldo_Diario`.
#### 3. Mostrar solo las columnas **Empleado** y **Sueldo\_Total**.
#### 4. Calcular y mostrar:

- #### El **empleado con mayor Sueldo\_Total**.
- #### El **promedio de Sueldo\_Total** de todos los empleados.
#### 5. Filtrar y mostrar solo a los empleados que trabajaron **más de 20 días**.

---

### Con este ejercicio practicamos:

#### * Lectura desde Excel,
#### * creación de una nueva columna,
#### * selección de columnas específicas,
#### * operaciones matemáticas,
#### * uso de filtros.

---



In [40]:
import pandas as pd  # Importamos pandas

# Leer el archivo Excel
df = pd.read_excel("asistencias.xlsx")

# Crear columna Sueldo_Total = Dias_Trabajados * Sueldo_Diario
df["Sueldo_Total"] = df["Dias_Trabajados"] * df["Sueldo_Diario"]

# Mostrar solo columnas Empleado y Sueldo_Total
print(df[["Empleado", "Sueldo_Total"]])

# Calcular el sueldo total más alto
sueldo_max = df["Sueldo_Total"].max()
print(f"Sueldo total más alto: {sueldo_max}")

# Calcular promedio de Sueldo_Total
promedio = df["Sueldo_Total"].mean()
print(f"Promedio de sueldo total: {promedio}")

# Filtrar empleados con más de 20 días trabajados
print("Empleados con más de 20 días trabajados:")
print(df[df["Dias_Trabajados"] > 20])



  Empleado  Sueldo_Total
0      Ana          2000
1     Luis          2090
2    Sofía          1980
3   Carlos          2250
4    Marta          1800
Sueldo total más alto: 2250
Promedio de sueldo total: 2024.0
Empleados con más de 20 días trabajados:
  Empleado  Dias_Trabajados  Sueldo_Diario  Sueldo_Total
1     Luis               22             95          2090
3   Carlos               25             90          2250


# 📊 Métodos iniciales en Pandas: head(), info(), describe()

## 1. Necesidad

#### Imaginá que recibís un archivo con 1000 registros de préstamos.
#### Tu jefa te dice:

- #### Mostrame rápido cómo se ven los datos, pero no me muestres todo el archivo.

- #### Decime qué columnas trae, qué tipo de datos tiene y si hay valores vacíos.

- #### Quiero un resumen estadístico básico (promedios, mínimos, máximos).

#### Hacer todo esto a mano sería imposible. Para eso existen tres métodos iniciales de Pandas.
---

## 2. Concepto

* #### `head()`

  #### Este método sirve para ver las primeras filas de tu tabla. Por defecto, muestra las 5 primeras. Su función principal es que vos puedas **dar una mirada rápida** a cómo están organizados tus datos, cuáles son los nombres de las columnas, y si la información que cargaste se ve como esperabas. Es como **abrir la tapa de un cuaderno** y mirar las primeras páginas para saber qué contiene.

* #### `info()`

  #### Este método entrega una **ficha técnica** de tu DataFrame. Te dice cuántas filas tiene, cuántas columnas, el nombre de cada columna, qué tipo de datos hay en ellas (números enteros, decimales, textos, fechas, etc.), y además cuántos valores están completos y cuántos faltan. Es útil para **diagnosticar rápidamente** la calidad de tus datos y saber si vas a tener que limpiar o transformar algo antes de analizarlos.

* #### `describe()`

  #### Este método hace un **resumen estadístico** de las columnas que contienen números. Te da medidas que permiten entender la distribución de los datos: cuántos valores hay (count), cuál es el promedio (mean), cuánto varían los datos respecto al promedio (desviación estándar), el valor más pequeño (mínimo), el más grande (máximo), y también posiciones clave dentro de la distribución, llamadas percentiles (25%, 50% y 75%). Estos percentiles sirven para entender cómo se reparten los datos: el 25% más bajo, la mitad de los datos, y el 25% más alto. En conjunto, esta información funciona como una **radiografía estadística** de tu dataset: te muestra de un vistazo si tus datos son muy dispersos, si tienen valores extremos, y cómo se agrupan.


### En pocas palabras:

* `head()` te deja **echar un vistazo rápido**.
* `info()` te da la **estructura y estado** de los datos.
* `describe()` te muestra la **salud estadística** de tus columnas numéricas.

---

## 3. Ejemplo en la vida real

### Tenés un archivo de préstamos con esta información:

| Cliente | Monto | Plazo (meses) |
| ------- | ----- | ------------- |
| Ana     | 1000  | 12            |
| Luis    | 2000  | 24            |
| Sofía   | 1500  | 18            |
| Marta   | 3000  | 36            |
| Juan    | 1200  | 12            |
| Carla   | 2500  | 24            |


## 4. Ejemplo en código

In [None]:
import pandas as pd  # Importamos pandas

# Creamos el DataFrame
data = {
    "Cliente": ["Ana", "Luis", "Sofía", "Marta", "Juan", "Carla"],
    "Monto": [1000, 2000, 1500, 3000, 1200, 2500],
    "Plazo": [12, 24, 18, 36, 12, 24]
}

df = pd.DataFrame(data)

# 1) Ver las primeras 5 filas
print(df.head())

# 2) Información general
print(df.info())

# 3) Resumen estadístico
print(df.describe())


  Cliente  Monto  Plazo
0     Ana   1000     12
1    Luis   2000     24
2   Sofía   1500     18
3   Marta   3000     36
4    Juan   1200     12


'# 2) Información general\nprint(df.info())\n\n# 3) Resumen estadístico\nprint(df.describe())'

## 5. Explicación

### `df.head()` → devuelve las primeras 5 filas. Útil para una vista rápida.

### `df.info()` → dice:

- #### cuántas filas y columnas tiene,

- #### el tipo de dato de cada columna (texto = object, números = int/float),

- #### si hay valores faltantes.

### `df.describe()` → calcula:

- #### count = cuántos datos tiene cada columna,

- #### mean = promedio,

- #### min y max = valores más chico y más grande,

- #### std = qué tan dispersos están los datos (desvío estándar),

- #### 25%, 50%, 75% = percentiles (como cortes en la distribución de los datos).
---

## 6. Ejercicios

#### Crear un DataFrame con ventas de una tienda (Producto, Precio, Cantidad).

#### Usar `head()` para ver las primeras filas.

#### Usar `info()` para verificar si hay alguna columna con valores nulos.

#### Aplicar `describe()` para calcular el precio promedio, el mínimo y máximo de los productos.