# üìä D√≠a 3 ‚Äì Pandas: Series y DataFrames

## 1. Necesidad

#### Imagin√° que trabaj√°s en un banco y recib√≠s un archivo con datos de clientes: nombre, edad, sexo, monto de pr√©stamo, etc.
#### Si intent√°s analizarlo con listas o diccionarios de Python, se vuelve muy dif√≠cil:

#### Ten√©s que recorrer manualmente cada lista.

#### Es complicado filtrar clientes por edad o calcular promedios.

#### Si hay miles de registros, el c√≥digo se vuelve largo y poco pr√°ctico.

#### Entonces nos preguntamos: ¬øno habr√° una herramienta que nos permita trabajar con datos en tablas, como si fuera Excel, pero dentro de Python?

#### S√≠ existe, y se llama Pandas.
---

## 2. Concepto: ¬øQu√© es Pandas?

#### üìå Pandas es una librer√≠a externa de Python (es decir, no viene incluida por defecto, hay que instalarla) que sirve para manipular y analizar datos.

#### Se usa much√≠simo en ciencia de datos, an√°lisis financiero, estad√≠stica, machine learning, etc.
#### Lo interesante es que nos permite trabajar con datos como si fueran hojas de c√°lculo de Excel, pero con m√°s flexibilidad y potencia:

- #### Podemos leer y guardar datos en CSV, Excel, SQL, JSON.

- #### Filtrar, transformar y limpiar datos muy f√°cilmente.

- #### Manejar grandes vol√∫menes de datos de forma r√°pida.

#### En palabras simples: `Pandas es como tener Excel dentro de Python, pero mucho m√°s poderoso.`

#### Para usarlo, siempre lo importamos as√≠:

#### import pandas as pd
---

## 3.1. Series

### `¬øQu√© es una Serie?`

#### Una Serie en Pandas es una lista con etiquetas (√≠ndices).

#### A diferencia de una lista normal de Python, donde solo pod√©s acceder a los datos por posici√≥n (0,1,2,‚Ä¶), en una Serie cada dato puede tener un nombre propio (√≠ndice).

#### Esto facilita mucho el an√°lisis porque pod√©s trabajar con nombres en vez de posiciones.

---

### `Para entender esto, veamos un ejemplo:`

### Queremos guardar la cantidad de pr√©stamos otorgados en una semana:

| D√≠a       | Pr√©stamos |
| --------- | --------- |
| Lunes     | 10        |
| Martes    | 15        |
| Mi√©rcoles | 7         |
| Jueves    | 20        |
| Viernes   | 13        |




In [None]:
prestamos = [10, 15, 7, 20, 13]

# El problema es que no sab√©s a qu√© d√≠a corresponde cada n√∫mero.

#### Con Pandas:

In [11]:
import pandas as pd

# Creamos una Serie con √≠ndices personalizados
prestamos = pd.Series([10, 15, 7, 20, 13],
                    index=["Lunes", "Martes", "Mi√©rcoles", "Jueves", "Viernes"])

print(prestamos)
# si ponemos sin index, nos va a dar el mismo resultado porque pandas pandas interpreta que el segundo argumento es el index

Lunes        10
Martes       15
Mi√©rcoles     7
Jueves       20
Viernes      13
dtype: int64


#### Cada n√∫mero ahora tiene una etiqueta (√≠ndice) que lo identifica.
#### Esto es lo que hace poderosa a una Serie.
---

## 3.2. DataFrame

### `¬øQue es un DataFrame?` 
#### Un DataFrame es una tabla en Pandas que tiene filas y columnas, similar a una hoja de Excel, donde pod√©s almacenar y manejar datos de forma f√°cil y ordenada.
#### Las personas que estan faciliarizados con Excell, saben que el marco de datos se puede almacenar en cuadricula rectangulares que pueden visualizarse facilmente. Cada marco de dato esta compuesto por filas y columnas.
#### En pandas cada fila tiene asociado un indice, al igual que cada columna, que bien puede ser un numero, o tambien puede ser un caracter. 
### `Para entender esto, veamos un ejemplo:`

### Queremos guardar datos de clientes de un banco:
| Nombre | Apellido | Edad | Sexo | Pr√©stamo |
| ------ | -------- | ---- | ---- | -------- |
| Juan   | Gonz√°lez | 25   | M    | 1000     |
| Mar√≠a  | S√°nchez  | 30   | F    | 1500     |
| Carlos | L√≥pez    | 28   | M    | 2000     |

### *En Pandas:*

In [12]:
import pandas as pd

# Creamos un DataFrame con un diccionario
clientes = pd.DataFrame({
    "Nombre": ["Juan", "Mar√≠a", "Carlos"],
    "Apellido": ["Gonz√°lez", "S√°nchez", "L√≥pez"],
    "Edad": [25, 30, 28],
    "Sexo": ["M", "F", "M"],
    "Pr√©stamo": [1000, 1500, 2000]
})

print(clientes)


   Nombre  Apellido  Edad Sexo  Pr√©stamo
0    Juan  Gonz√°lez    25    M      1000
1   Mar√≠a   S√°nchez    30    F      1500
2  Carlos     L√≥pez    28    M      2000


#### Cada fila tiene un √≠ndice (0,1,2 por defecto).
#### Cada columna tiene un nombre (Nombre, Apellido, Edad, etc.).

### Esto hace que sea muy f√°cil seleccionar, filtrar y analizar datos.
---

## 4. Ejemplos pr√°cticos

In [14]:
print(clientes["Edad"])
# Esto es una Serie que corresponde a la columna Edad.

0    25
1    30
2    28
Name: Edad, dtype: int64


## Seleccionar varias columnas

In [15]:
print(clientes[["Nombre", "Pr√©stamo"]])


   Nombre  Pr√©stamo
0    Juan      1000
1   Mar√≠a      1500
2  Carlos      2000


## Calcular promedio de una columna

In [16]:
print(clientes["Pr√©stamo"].mean())
# Devuelve 1500.0, que es el promedio de los pr√©stamos.

1500.0


## 5. Ejercicios para los alumnos ‚úçÔ∏è

#### 1. Crear una Serie con los montos de ventas de 5 d√≠as (Lunes a Viernes).

- #### Mostrar el monto de un d√≠a espec√≠fico (por ejemplo, Martes).

#### 2. Crear un DataFrame con los siguientes datos de empleados:

- #### Nombre, Edad, Departamento, Sueldo.

- #### Incluir al menos 4 empleados.

#### 3. Con el DataFrame de empleados:

- #### Mostrar solo la columna ‚ÄúSueldo‚Äù.

- #### Calcular el sueldo promedio.

- #### Filtrar solo los empleados mayores de 25 a√±os.

---

## 1) Serie de ventas (Lunes a Viernes)

In [18]:
# Crear Serie con montos de ventas
ventas = pd.Series([1200, 1500, 900, 1800, 1300],
                index=["Lunes", "Martes", "Mi√©rcoles", "Jueves", "Viernes"])

print(ventas)

# Creamos una Series con 5 valores y les ponemos etiquetas (√≠ndices) con los d√≠as; imprimir muestra d√≠a ‚Üí monto.

Lunes        1200
Martes       1500
Mi√©rcoles     900
Jueves       1800
Viernes      1300
dtype: int64


## 2) Mostrar el monto de un d√≠a espec√≠fico (Martes)

In [20]:
# Acceder al monto del d√≠a Martes usando su etiqueta
monto_martes = ventas["Martes"]
print("Ventas del martes:", monto_martes)
# Seleccionamos por etiqueta "Martes" en la Series; luego lo imprimimos.


Ventas del martes: 1500


## 3) DataFrame de empleados (Nombre, Edad, Departamento, Sueldo)

In [21]:
# Crear DataFrame con 4 empleados
empleados = pd.DataFrame({
    "Nombre": ["Ana", "Luis", "Sof√≠a", "Carlos"],
    "Edad": [24, 29, 31, 22],
    "Departamento": ["Finanzas", "Ventas", "Datos", "Soporte"],
    "Sueldo": [4500000, 5200000, 6000000, 4000000]  # valores de ejemplo
})

print(empleados)

# Construimos un DataFrame a partir de un diccionario: cada clave es una columna y cada lista son los valores de esa columna.

   Nombre  Edad Departamento   Sueldo
0     Ana    24     Finanzas  4500000
1    Luis    29       Ventas  5200000
2   Sof√≠a    31        Datos  6000000
3  Carlos    22      Soporte  4000000


### `3.a) Mostrar solo la columna ‚ÄúSueldo‚Äù`

In [22]:
# Selecci√≥n de una sola columna (devuelve una Series)
solo_sueldo = empleados["Sueldo"]
print(solo_sueldo)

# empleados["Sueldo"] selecciona por nombre de columna y retorna una Series con los sueldos.

0    4500000
1    5200000
2    6000000
3    4000000
Name: Sueldo, dtype: int64


### `3.b) Calcular el sueldo promedio`

In [24]:
# Promedio (mean) de la columna Sueldo
sueldo_promedio = empleados["Sueldo"].mean()
print("Sueldo promedio:", sueldo_promedio)

# Usamos el m√©todo .mean() de pandas sobre la Series ‚ÄúSueldo‚Äù para obtener el promedio.


Sueldo promedio: 4925000.0


### `3.c) Filtrar solo empleados mayores de 25 a√±os`

In [None]:
# Filtro booleano por condici√≥n sobre la columna Edad
mayores_25 = empleados[empleados["Edad"] > 25]
print(mayores_25)
# Creamos una m√°scara booleana (empleados["Edad"] > 25) y la usamos entre corchetes para devolver solo las filas que cumplen la condici√≥n.

#### Con esto cubrimos la base de Pandas: Series y DataFrames.
#### De ac√° en adelante, todo el an√°lisis de datos se construye sobre estas dos estructuras.
---

# ‚öôÔ∏è Instalaci√≥n de librer√≠a para Excel (`openpyxl`)

#### Un detalle importante antes de trabajar con archivos **Excel** en Pandas.

#### Pandas puede leer archivos **CSV** directamente sin problema.
#### Pero para leer archivos **Excel** necesita un **motor extra** que haga de puente.

### `Ese motor se llama **openpyxl**.`

---

### üìå ¬øQu√© es `openpyxl`?

- #### Es una librer√≠a de Python que permite a Pandas **abrir y trabajar con archivos Excel** (`.xlsx`).
- #### Sin ella, Pandas no podr√≠a leer directamente los datos desde un Excel.

---

### üìå ¬øC√≥mo instalarla?

#### Muy simple: en la terminal (o consola) escribimos:

- #### `pip install openpyxl`

---

### üìå ¬øPor qu√© necesitamos instalarla?

- #### Porque **Excel no es texto plano como CSV**.
- #### Necesitamos esta librer√≠a que entiende el formato interno de Excel y se lo traduce a Pandas.

#### A partir de ah√≠, ya podemos usar tranquilamente `pd.read_excel("archivo.xlsx")` sin errores.

---


# Lectura de CSV y Excel

#### ahora vamos a comenzar una nueva parte del curso: lectura de archivos CSV y Excel con Pandas.

#### Antes de meternos en el c√≥digo, quiero que nos detengamos un ratito a entender bien qu√© son estos archivos, c√≥mo funcionan y para qu√© se usan.

#### Les pregunto: ¬øalguien escuch√≥ hablar de los archivos CSV?

## Explicaci√≥n de CSV

#### CSV significa Comma-Separated Values, en espa√±ol: valores separados por comas.

#### Un archivo CSV es un archivo de texto plano que guarda informaci√≥n en forma de tabla.
#### Cada fila del archivo corresponde a un registro, y cada columna est√° separada por una coma.

### Por ejemplo, un CSV con pr√©stamos podr√≠a verse as√≠:



#### F√≠jense:

#### La primera fila es el encabezado (los nombres de las columnas).

#### Despu√©s vienen los datos, separados por comas.

#### Lo bueno de un CSV es que es muy liviano, r√°pido de leer y compatible con casi todos los programas. Se puede abrir con Excel, con Google Sheets, con el Bloc de notas, con VSCode, ¬°con casi cualquier cosa!
---

## üìå ¬øPara qu√© sirve un CSV?

#### Entonces, ¬øpara qu√© se usa un CSV?

#### Para guardar datos en bruto, sin formato.

#### Para intercambiar informaci√≥n entre sistemas (ejemplo: bajar datos de un banco, exportar ventas de una tienda online, estad√≠sticas de una app).

#### Es el formato preferido en an√°lisis de datos porque es universal y no depende de un programa espec√≠fico.
---

## Explicaci√≥n de Excel

#### Ahora, muchos de ustedes seguro ya conocen Excel.
#### Excel es un archivo de hoja de c√°lculo (extensiones .xls o .xlsx).

## ¬øEn qu√© se diferencia de un CSV?

#### Excel permite no solo guardar datos, sino tambi√©n:

- ##### aplicar f√≥rmulas,

- #### hacer gr√°ficos,

- #### tener varias hojas en el mismo archivo,

- #### aplicar colores y estilos.

#### Ejemplo visual con los mismos datos de antes en Excel:

#### F√≠jense que ac√° ya se ve como una tabla bonita, con cuadr√≠culas y todo.

#### Pero ojo: un archivo Excel es m√°s pesado, m√°s lento de procesar y depende de programas espec√≠ficos como Microsoft Excel o Google Sheets.

## üìä Comparaci√≥n directa

#### Vamos a comparar entonces:

### *CSV:*

- #### Solo texto, sin estilos.

- #### Liviano, r√°pido.

- #### Compatible con cualquier sistema.

- #### Ideal para datasets grandes.

### *Excel:*

- #### Permite colores, f√≥rmulas, gr√°ficos, varias hojas.

- #### M√°s pesado y m√°s lento.

- #### Muy usado en oficinas, contabilidad y reportes visuales.

---

## ‚öñÔ∏è Diferencias principales

#### 1. Simplicidad

- #### CSV: solo guarda datos.

- #### Excel: guarda datos + formato + f√≥rmulas + varias hojas.

#### 2. Tama√±o

- #### CSV: m√°s liviano, porque es puro texto.

- #### Excel: m√°s pesado.

#### 3. Compatibilidad

- #### CSV: se abre en cualquier lado (Excel, Google Sheets, Notepad, Python, etc.).

- #### Excel: a veces necesita programas que lo soporten (Excel, LibreOffice, Google Sheets).

#### 4. Uso t√≠pico

- #### CSV: cuando solo importa el contenido (ej. para cargar datos en un sistema).

- #### Excel: cuando adem√°s importa la presentaci√≥n (ej. reportes con gr√°ficos y colores).


#### *En resumen:*

- #### `CSV = un cuaderno de hojas blancas, solo pod√©s escribir texto.`

- #### `Excel = una carpeta completa, con hojas, colores, cuentas y dibujos.`
---

# 1. Necesidad

#### Imaginate que trabaj√°s en una financiera de microcr√©ditos.

#### Cada d√≠a, decenas de vendedores cargan informaci√≥n de clientes:

- #### nombre,

- #### edad,

- #### monto del cr√©dito,

- #### y fecha de pago.

#### Toda esa informaci√≥n se guarda en archivos que llegan a tu computadora.
#### Algunos vendedores te pasan los datos en CSV, otros en Excel.

#### Tu jefa te pide:

- #### revisar los archivos,

- #### calcular el promedio de montos,

- #### y filtrar solo los clientes que pidieron m√°s de 10.000.

#### Si intentaras hacerlo copiando a mano en Python, tendr√≠as que reescribir cientos de datos, fila por fila. Ser√≠a un trabajo imposible.

#### Por eso necesitamos que Pandas nos ayude a leer archivos CSV y Excel de manera directa y autom√°tica. As√≠ transformamos esos datos en una tabla lista para analizar.
---

## üìå 2. Concepto

#### En Pandas tenemos funciones que nos ayudan a leer archivos y convertirlos en tablas de Python.

#### Cuando usamos `pd.read_csv("archivo.csv")`
- #### Lo que hace Pandas es abrir un archivo CSV y transformarlo en un DataFrame.

#### Cuando usamos `pd.read_excel("archivo.xlsx")`
- #### Es lo mismo, pero con un archivo de Excel, que puede tener varias hojas, colores, f√≥rmulas, etc. Pandas toma la hoja que le indiquemos y tambi√©n la convierte en un DataFrame.
---

## ¬øPor qu√© es √∫til esto?

- #### Sin Pandas: tendr√≠as que copiar los datos a mano o escribir mucho c√≥digo para leer l√≠nea por l√≠nea.

- #### Con Pandas: con una sola l√≠nea de c√≥digo (pd.read_csv o pd.read_excel) ya ten√©s los datos listos en una tabla en Python.
---

# 3. Ejemplo en c√≥digo

In [35]:
import pandas as pd  # Importamos pandas

# Leer un archivo CSV con funcion read_csv
# le decimos a Pandas: ‚Äúabr√≠ este archivo CSV y transformalo en un DataFrame‚Äù.
df_csv = pd.read_csv("c_s_v_prestamo.csv")
print(f"Datos desde CSV:\n {df_csv}")



Datos desde CSV:
      Cliente      Monto  Plazo
0    Mariano   14750000     18
1    Enrique   20550000     36
2     M√≥nica   59950000     48
3     Silvia  109800000     18
4     Gladys   49700000     12
5     Teresa  119900000      6
6     Camilo   75350000      6
7   Ver√≥nica   91650000     24
8     Tamara   83950000     18
9     M√≥nica  118900000     12
10   Rodrigo  117850000     12
11   Esteban    5550000     18
12  Fiorella    2400000     12
13    Noelia   86550000      6
14  Santiago   74750000     36
15    Hern√°n  109600000     18
16  Ver√≥nica   99600000     18
17   Yolanda   63400000     36
18    Gladys   77650000     18
19     Bruno    8600000     18


In [34]:
# Leer un archivo Excel
# pd.read_excel("excel_prestamo.xlsx"): abre el archivo Excel y devuelve un DataFrame (tabla con filas y columnas lista para analizar).
df_excel = pd.read_excel("excel_prestamo.xlsx")
print("\nDatos desde Excel:")
print(df_excel)


Datos desde Excel:
      Cliente      Monto  Plazo
0     Mariano   14750000     18
1     Enrique   20550000     36
2      M√≥nica   59950000     48
3      Silvia  109800000     18
4      Gladys   49700000     12
..        ...        ...    ...
145    Mat√≠as   65600000     36
146   Eduardo   35750000     48
147   Aurelia   70900000     24
148   Julieta   95650000      6
149  Fernando  135350000     48

[150 rows x 3 columns]


## 6. Ejercicios para los alumnos

# üìù Ejercicio 1

#### Imagin√° que trabaj√°s en una **empresa de tecnolog√≠a** que vende distintos productos.
#### Recib√≠s un archivo llamado **`productos.csv`** con esta informaci√≥n:

- #### `Producto,Precio,Cantidad`
- #### `Laptop,1200,5`
- #### `Celular,800,10`
- #### `Tablet,600,7`
- #### `Auriculares,150,20`
- #### `Monitor,300,8`


---

### Tareas a realizar con Pandas:

#### 1. **Leer el archivo** con `pd.read_csv()`.
#### 2. Crear una **nueva columna llamada "Total"**, que sea el resultado de `Precio * Cantidad`.
#### 3. Mostrar solo las columnas **Producto** y **Total**.
#### 4. Calcular y mostrar:

- #### El **producto m√°s caro** (seg√∫n la columna Precio).
- #### El **producto con mayor Total** (Precio \* Cantidad).
#### 5. Filtrar y mostrar √∫nicamente los productos cuyo **Total sea mayor a 5000**.

---

#### Con este ejercicio se tienen que **combinar todo lo aprendido**: lectura de archivos, selecci√≥n de columnas, operaciones b√°sicas y filtrado.
#### Es simple en c√≥digo, pero obliga a **pensar la l√≥gica paso a paso**.

---



In [39]:
import pandas as pd  # Importamos pandas

# Leer el archivo CSV
df = pd.read_csv("productos.csv")

# Crear columna Total = Precio * Cantidad
df["Total"] = df["Precio"] * df["Cantidad"]

# Mostrar solo columnas Producto y Total
print(df[["Producto", "Total"]])

# Producto m√°s caro (usamos max sobre la columna Precio)
precio_max = df["Precio"].max()
print(f"Precio m√°s alto: {precio_max}")

# Producto con mayor Total (usamos max sobre la columna Total)
total_max = df["Total"].max()
print(f"Total m√°s alto: {total_max}")

# Filtrar productos con Total mayor a 5000
print("Productos con Total mayor a 5000:")
print(df[df["Total"] > 5000])



      Producto  Total
0       Laptop   6000
1      Celular   8000
2       Tablet   4200
3  Auriculares   3000
4      Monitor   2400
Precio m√°s alto: 1200
Total m√°s alto: 8000
Productos con Total mayor a 5000:
  Producto  Precio  Cantidad  Total
0   Laptop    1200         5   6000
1  Celular     800        10   8000


# üìù Ejercicio Desaf√≠o 2

#### Trabaj√°s en una **empresa de recursos humanos**.
#### Te pasan un archivo llamado **`asistencias.xlsx`** con este contenido:

| Empleado | Dias\_Trabajados | Sueldo\_Diario |
| -------- | ---------------- | -------------- |
| Ana      | 20               | 100            |
| Luis     | 22               | 95             |
| Sof√≠a    | 18               | 110            |
| Carlos   | 25               | 90             |
| Marta    | 15               | 120            |

---

### Tareas a realizar con Pandas:

#### 1. Leer el archivo con `pd.read_excel()`.
#### 2. Calcular una **nueva columna llamada "Sueldo\_Total"** = `Dias_Trabajados * Sueldo_Diario`.
#### 3. Mostrar solo las columnas **Empleado** y **Sueldo\_Total**.
#### 4. Calcular y mostrar:

- #### El **empleado con mayor Sueldo\_Total**.
- #### El **promedio de Sueldo\_Total** de todos los empleados.
#### 5. Filtrar y mostrar solo a los empleados que trabajaron **m√°s de 20 d√≠as**.

---

### Con este ejercicio practicamos:

#### * Lectura desde Excel,
#### * creaci√≥n de una nueva columna,
#### * selecci√≥n de columnas espec√≠ficas,
#### * operaciones matem√°ticas,
#### * uso de filtros.

---



In [40]:
import pandas as pd  # Importamos pandas

# Leer el archivo Excel
df = pd.read_excel("asistencias.xlsx")

# Crear columna Sueldo_Total = Dias_Trabajados * Sueldo_Diario
df["Sueldo_Total"] = df["Dias_Trabajados"] * df["Sueldo_Diario"]

# Mostrar solo columnas Empleado y Sueldo_Total
print(df[["Empleado", "Sueldo_Total"]])

# Calcular el sueldo total m√°s alto
sueldo_max = df["Sueldo_Total"].max()
print(f"Sueldo total m√°s alto: {sueldo_max}")

# Calcular promedio de Sueldo_Total
promedio = df["Sueldo_Total"].mean()
print(f"Promedio de sueldo total: {promedio}")

# Filtrar empleados con m√°s de 20 d√≠as trabajados
print("Empleados con m√°s de 20 d√≠as trabajados:")
print(df[df["Dias_Trabajados"] > 20])



  Empleado  Sueldo_Total
0      Ana          2000
1     Luis          2090
2    Sof√≠a          1980
3   Carlos          2250
4    Marta          1800
Sueldo total m√°s alto: 2250
Promedio de sueldo total: 2024.0
Empleados con m√°s de 20 d√≠as trabajados:
  Empleado  Dias_Trabajados  Sueldo_Diario  Sueldo_Total
1     Luis               22             95          2090
3   Carlos               25             90          2250


# üìä M√©todos iniciales en Pandas: head(), info(), describe()

## 1. Necesidad

#### Imagin√° que recib√≠s un archivo con 1000 registros de pr√©stamos.
#### Tu jefa te dice:

- #### Mostrame r√°pido c√≥mo se ven los datos, pero no me muestres todo el archivo.

- #### Decime qu√© columnas trae, qu√© tipo de datos tiene y si hay valores vac√≠os.

- #### Quiero un resumen estad√≠stico b√°sico (promedios, m√≠nimos, m√°ximos).

#### Hacer todo esto a mano ser√≠a imposible. Para eso existen tres m√©todos iniciales de Pandas.
---

## 2. Concepto

* #### `head()`

  #### Este m√©todo sirve para ver las primeras filas de tu tabla. Por defecto, muestra las 5 primeras. Su funci√≥n principal es que vos puedas **dar una mirada r√°pida** a c√≥mo est√°n organizados tus datos, cu√°les son los nombres de las columnas, y si la informaci√≥n que cargaste se ve como esperabas. Es como **abrir la tapa de un cuaderno** y mirar las primeras p√°ginas para saber qu√© contiene.

* #### `info()`

  #### Este m√©todo entrega una **ficha t√©cnica** de tu DataFrame. Te dice cu√°ntas filas tiene, cu√°ntas columnas, el nombre de cada columna, qu√© tipo de datos hay en ellas (n√∫meros enteros, decimales, textos, fechas, etc.), y adem√°s cu√°ntos valores est√°n completos y cu√°ntos faltan. Es √∫til para **diagnosticar r√°pidamente** la calidad de tus datos y saber si vas a tener que limpiar o transformar algo antes de analizarlos.

* #### `describe()`

  #### Este m√©todo hace un **resumen estad√≠stico** de las columnas que contienen n√∫meros. Te da medidas que permiten entender la distribuci√≥n de los datos: cu√°ntos valores hay (count), cu√°l es el promedio (mean), cu√°nto var√≠an los datos respecto al promedio (desviaci√≥n est√°ndar), el valor m√°s peque√±o (m√≠nimo), el m√°s grande (m√°ximo), y tambi√©n posiciones clave dentro de la distribuci√≥n, llamadas percentiles (25%, 50% y 75%). Estos percentiles sirven para entender c√≥mo se reparten los datos: el 25% m√°s bajo, la mitad de los datos, y el 25% m√°s alto. En conjunto, esta informaci√≥n funciona como una **radiograf√≠a estad√≠stica** de tu dataset: te muestra de un vistazo si tus datos son muy dispersos, si tienen valores extremos, y c√≥mo se agrupan.


### En pocas palabras:

* `head()` te deja **echar un vistazo r√°pido**.
* `info()` te da la **estructura y estado** de los datos.
* `describe()` te muestra la **salud estad√≠stica** de tus columnas num√©ricas.

---

## 3. Ejemplo en la vida real

### Ten√©s un archivo de pr√©stamos con esta informaci√≥n:

| Cliente | Monto | Plazo (meses) |
| ------- | ----- | ------------- |
| Ana     | 1000  | 12            |
| Luis    | 2000  | 24            |
| Sof√≠a   | 1500  | 18            |
| Marta   | 3000  | 36            |
| Juan    | 1200  | 12            |
| Carla   | 2500  | 24            |


## 4. Ejemplo en c√≥digo

In [None]:
import pandas as pd  # Importamos pandas

# Creamos el DataFrame
data = {
    "Cliente": ["Ana", "Luis", "Sof√≠a", "Marta", "Juan", "Carla"],
    "Monto": [1000, 2000, 1500, 3000, 1200, 2500],
    "Plazo": [12, 24, 18, 36, 12, 24]
}

df = pd.DataFrame(data)

# 1) Ver las primeras 5 filas
print(df.head())

# 2) Informaci√≥n general
print(df.info())

# 3) Resumen estad√≠stico
print(df.describe())


  Cliente  Monto  Plazo
0     Ana   1000     12
1    Luis   2000     24
2   Sof√≠a   1500     18
3   Marta   3000     36
4    Juan   1200     12


'# 2) Informaci√≥n general\nprint(df.info())\n\n# 3) Resumen estad√≠stico\nprint(df.describe())'

## 5. Explicaci√≥n

### `df.head()` ‚Üí devuelve las primeras 5 filas. √ötil para una vista r√°pida.

### `df.info()` ‚Üí dice:

- #### cu√°ntas filas y columnas tiene,

- #### el tipo de dato de cada columna (texto = object, n√∫meros = int/float),

- #### si hay valores faltantes.

### `df.describe()` ‚Üí calcula:

- #### count = cu√°ntos datos tiene cada columna,

- #### mean = promedio,

- #### min y max = valores m√°s chico y m√°s grande,

- #### std = qu√© tan dispersos est√°n los datos (desv√≠o est√°ndar),

- #### 25%, 50%, 75% = percentiles (como cortes en la distribuci√≥n de los datos).
---

## 6. Ejercicios

#### Crear un DataFrame con ventas de una tienda (Producto, Precio, Cantidad).

#### Usar `head()` para ver las primeras filas.

#### Usar `info()` para verificar si hay alguna columna con valores nulos.

#### Aplicar `describe()` para calcular el precio promedio, el m√≠nimo y m√°ximo de los productos.