<a href="https://colab.research.google.com/github/SandrAlzate/CV/blob/master/Fundamentos_Pandas_S1aS3.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>


# 📘 Fundamentos de Pandas – Sesiones 1 a 3

**Objetivo general:** Introducir el uso de Pandas para análisis de datos:  
- Crear y manipular **Series** y **DataFrames**  
- Importar y exportar datos (CSV y Excel)  
- Indexar, limpiar datos faltantes y crear nuevas variables  

---



## 🔹 SESIÓN 1: Introducción a Pandas – Series y DataFrames


In [None]:
# Importar pandas
import pandas as pd
pd.__version__

'2.2.2'


### Series
Una Serie es una estructura **unidimensional** con índices.


In [None]:
# Crear una Serie con índice personalizado
serie = pd.Series([10, 20, 30, 40], index=["a", "b", "c", "d"], name="valores")

In [None]:
print(serie)

a    10
b    20
c    30
d    40
Name: valores, dtype: int64


In [None]:
print("Acceso por etiqueta:", serie["b"])

Acceso por etiqueta: 20


In [None]:
print("Acceso por posición:", serie.iloc[2])

Acceso por posición: 30



### DataFrame
Un DataFrame es una tabla bidimensional con filas y columnas.


In [None]:
# Crear un DataFrame desde un diccionario
data = {
    "Nombre": ["Ana", "Luis", "María"],
    "Edad": [20, 22, 19],
    "Carrera": ["Ingeniería", "Matemáticas", "Biología"]
}


In [None]:
df = pd.DataFrame(data)
df

Unnamed: 0,Nombre,Edad,Carrera
0,Ana,20,Ingeniería
1,Luis,22,Matemáticas
2,María,19,Biología


In [None]:
# Acceso básico
print("Columna 'Nombre':\n", df["Nombre"])

Columna 'Nombre':
 0      Ana
1     Luis
2    María
Name: Nombre, dtype: object


In [None]:
print("\nFila con .loc (etiqueta 0):\n", df.loc[0])



Fila con .loc (etiqueta 0):
 Nombre            Ana
Edad               20
Carrera    Ingeniería
Name: 0, dtype: object


In [None]:
print("\nFila con .iloc (posición 1):\n", df.iloc[1])


Fila con .iloc (posición 1):
 Nombre            Luis
Edad                22
Carrera    Matemáticas
Name: 1, dtype: object



🧪 **Ejercicio 1:**  
Crea un `DataFrame` con tus 5 películas favoritas con columnas: `Titulo`, `Director`, `Duracion_min`, `Anio`.  
Muestra solo las columnas `Titulo` y `Director`.  
Calcula el promedio de `Duracion_min`.



## 🔹 SESIÓN 2: Importación y exportación de datos (CSV / Excel)


In [None]:
# Crear un CSV de ejemplo
ejemplo = pd.DataFrame({
    "nombre": ["Ana","Luis","María"],
    "nota": [4.5, 3.8, 4.2],
    "fecha": pd.to_datetime(["2025-08-01","2025-08-02","2025-08-03"])
})
csv_path = "estudiantes.csv"
ejemplo.to_csv(csv_path, index=False)
print("Archivo guardado:", csv_path)

Archivo guardado: estudiantes.csv


In [None]:
# Cargar el CSV
df_csv = pd.read_csv("estudiantes.csv", parse_dates=["fecha"])
df_csv.head()

Unnamed: 0,nombre,nota,fecha
0,Ana,4.5,2025-08-01
1,Luis,3.8,2025-08-02
2,María,4.2,2025-08-03


In [None]:
# Crear y cargar un Excel de ejemplo
xlsx_path = "ventas.xlsx"
with pd.ExcelWriter(xlsx_path) as writer:
    pd.DataFrame({"producto":["A","B","C"], "precio":[10,20,30]}).to_excel(writer, sheet_name="Hoja1", index=False)
    pd.DataFrame({"producto":["A","B","C"], "unidades":[5,7,2]}).to_excel(writer, sheet_name="Hoja2", index=False)

df_xlsx = pd.read_excel(xlsx_path, sheet_name="Hoja1")
df_xlsx.head()

Unnamed: 0,producto,precio
0,A,10
1,B,20
2,C,30



🧪 **Ejercicio 2:**  
1) Carga el archivo `estudiantes.csv`.  
2) Selecciona solo las columnas `nombre` y `nota`.  
3) Exporta ese resultado a `resumen_estudiantes.xlsx`.  
4) Vuelve a cargarlo con `read_excel`.



## 🔹 SESIÓN 3: Indexación, Valores faltantes y Nuevas Variables



### Indexación básica y avanzada
- `.loc[fila_label, col_label]` → por **etiqueta**  
- `.iloc[fila_pos, col_pos]` → por **posición**


In [None]:
# DataFrame de ejemplo
dfm = pd.DataFrame({
    "id":[1,2,3,4,5],
    "producto":["A","B","C","D","E"],
    "precio":[10.0, 12.5, None, 15.0, 9.5],
    "unidades":[5, 7, 2, None, 4]
}).set_index("id")
dfm

Unnamed: 0_level_0,producto,precio,unidades
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,A,10.0,5.0
2,B,12.5,7.0
3,C,,2.0
4,D,15.0,
5,E,9.5,4.0


In [None]:
# Acceso con loc/iloc
print("loc filas 2..4, columnas 'producto' y 'precio'")
print(dfm.loc[2:4, ["producto","precio"]])

print("\niloc filas 0..2, columnas 0..1")
print(dfm.iloc[0:3, 0:2])

loc filas 2..4, columnas 'producto' y 'precio'
   producto  precio
id                 
2         B    12.5
3         C     NaN
4         D    15.0

iloc filas 0..2, columnas 0..1
   producto  precio
id                 
1         A    10.0
2         B    12.5
3         C     NaN



### Manejo de valores faltantes
- `df.isnull()` → detecta nulos  
- `df.dropna()` → elimina filas con nulos  
- `df.fillna(valor)` → reemplaza valores nulos


In [None]:
dfm.isnull()

Unnamed: 0_level_0,producto,precio,unidades
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,False,False,False
2,False,False,False
3,False,True,False
4,False,False,True
5,False,False,False


In [None]:
# Eliminar valores faltantes
dfm_drop = dfm.dropna()
dfm_drop

Unnamed: 0_level_0,producto,precio,unidades
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,A,10.0,5.0
2,B,12.5,7.0
5,E,9.5,4.0


In [None]:
dfm.describe()

Unnamed: 0,precio,unidades
count,4.0,4.0
mean,11.75,4.5
std,2.533114,2.081666
min,9.5,2.0
25%,9.875,3.5
50%,11.25,4.5
75%,13.125,5.5
max,15.0,7.0


In [None]:
# Reemplazar valores faltantes
dfm_fill = dfm.fillna({"precio": dfm["precio"].mean(), "unidades": 0})
dfm_fill

Unnamed: 0_level_0,producto,precio,unidades
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,A,10.0,5.0
2,B,12.5,7.0
3,C,11.75,2.0
4,D,15.0,0.0
5,E,9.5,4.0



### Creación de nuevas variables


In [None]:
# Nueva columna: ingreso total
dfm["ingreso_total"] = dfm["precio"] * dfm["unidades"]
dfm

Unnamed: 0_level_0,producto,precio,unidades,ingreso_total
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,A,10.0,5.0,50.0
2,B,12.5,7.0,87.5
3,C,,2.0,
4,D,15.0,,
5,E,9.5,4.0,38.0


In [None]:
# Nueva columna categórica
dfm["categoria"] = ["alto" if x>=50 else "bajo" for x in dfm["ingreso_total"].fillna(0)]
dfm

Unnamed: 0_level_0,producto,precio,unidades,ingreso_total,categoria
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,A,10.0,5.0,50.0,alto
2,B,12.5,7.0,87.5,alto
3,C,,2.0,,bajo
4,D,15.0,,,bajo
5,E,9.5,4.0,38.0,bajo



🧪 **Ejercicio 3:**  
Con el `DataFrame dfm`:  
1) Elimina las filas con valores nulos en `precio`.  
2) Rellena los valores nulos en `unidades` con 1.  
3) Crea una nueva columna `doble_precio` que duplique los valores de `precio`.  
4) Crea una columna `es_caro` que valga `True` si `precio > 12`.



---

## 🧭 Cierre
- **Sesión 1:** Series y DataFrames.  
- **Sesión 2:** Importar y exportar CSV/Excel.  
- **Sesión 3:** Indexación, manejo de valores faltantes, nuevas variables.  

👉 Próximos pasos: filtrado de datos, agrupaciones con `groupby`, y visualización básica.
