<a href="https://colab.research.google.com/github/choco721/ICC.prueba/blob/Branch1/UCA_ED_2025_PANDAS_Y_NUMPY.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 🐼 Curso Básico de Pandas

Este curso está diseñado para introducirte al uso de Pandas, una de las librerías más importantes de Python para análisis de datos.

## 🔰 Módulo 1: Introducción a Pandas

### Teoría
Pandas es una librería de Python diseñada para la manipulación y análisis de datos. Proporciona estructuras como `Series` y `DataFrames`.

- `Series`: vectores unidimensionales con índice.
- `DataFrame`: tablas bidimensionales.

### Objetivo
Aprender a importar la librería y crear estructuras básicas.

In [None]:
import pandas as pd

# Crear una Serie
serie = pd.Series([10, 20, 30], index=["a", "b", "c"])
print(serie)

# Crear un DataFrame
data = {
    "Nombre": ["Ana", "Luis", "Pedro"],
    "Edad": [22, 25, 20]
}
df = pd.DataFrame(data)
print(df)

### 🧪 Ejercicios
1. Importar pandas como `pd`.
2. Crear una `Series` con temperaturas diarias.
3. Crear un `DataFrame` con nombre, carrera y nota.

In [None]:
import pandas as pd

serie = pd.Series([10, 20, 30], index=["a", "b", "c"])
print(serie)

#Creación del DataFrame
data = {
    "Nombre": ["Juan", "Pedro", "Tomás"],
    "Carrera": ["Matemática", "Filosofía", "Seminario"],
    "Edad": [18,22,24]
}

df = pd.DataFrame(data)
print(df)

a    10
b    20
c    30
dtype: int64
  Nombre     Carrera  Edad
0   Juan  Matemática    18
1  Pedro   Filosofía    22
2  Tomás   Seminario    24


## 📊 Módulo 2: Series

### Teoría
Una `Series` es un arreglo con etiquetas. Permite operaciones vectorizadas y selección por índice.

### Objetivo
Manejar Series y realizar operaciones básicas.

In [None]:
temperaturas = pd.Series([25, 28, 31, 30, 27], index=["Lun", "Mar", "Mié", "Jue", "Vie"])
print("Media:", temperaturas.mean())
print(">30°C:", temperaturas[temperaturas > 30])

### 🧪 Ejercicios
1. Crear una `Series` con precios del dólar.
2. Obtener el valor máximo y mínimo.
3. Filtrar los valores mayores al promedio.

In [None]:
precios_dolar = pd.Series([1200, 1210, 1190, 1180, 1175,1240,1250])

valor_maximo = precios_dolar.max()
valor_minimo = precios_dolar.min()

print("Valor máximo del dólar:", valor_maximo)
print("Valor mínimo:", valor_minimo)

promedio = precios_dolar.mean()  #el .mean me saca el promedio
mayores_al_promedio = precios_dolar[precios_dolar > promedio]

print("\nValores mayores al promedio:")
print(mayores_al_promedio)

Valor máximo del dólar: 1250
Valor mínimo: 1175

Valores mayores al promedio:
1    1210
5    1240
6    1250
dtype: int64


## 🧱 Módulo 3: DataFrames

### Teoría
Un `DataFrame` es una tabla de datos con filas y columnas etiquetadas.

### Objetivo
Acceder y modificar información en DataFrames.

In [None]:
alumnos = pd.DataFrame({
    "Nombre": ["Laura", "Nico", "Sofía"],
    "Edad": [23, 21, 22],
    "Carrera": ["Datos", "Química", "Física"]
})
print(alumnos["Edad"])
print(alumnos.iloc[1])

### 🧪 Ejercicios
1. Crear un DataFrame de 5 alumnos.
2. Agregar columna "Aprobado" (nota ≥ 6).
3. Filtrar alumnos aprobados.

In [None]:
datos = {
    "Alumno": ["Ana", "Bruno", "Carla", "Diego", "Elena"],
    "Nota": [7, 5, 6, 4, 9]
}

df = pd.DataFrame(datos)
# Agregar columna "Aprobado"
df["Aprobado"] = df["Nota"] >= 6
print("Todos los alumnos:")
print(df)

aprobados = df[df["Aprobado"] == True]

print("Alumnos aprobados:\n")
print(aprobados)

Todos los alumnos:
  Alumno  Nota  Aprobado
0    Ana     7      True
1  Bruno     5     False
2  Carla     6      True
3  Diego     4     False
4  Elena     9      True
Alumnos aprobados:

  Alumno  Nota  Aprobado
0    Ana     7      True
2  Carla     6      True
4  Elena     9      True


## 🧼 Módulo 4: Limpieza de Datos

### Teoría
En Pandas es común trabajar con datos incompletos o incorrectos. Podemos identificar y limpiar estos datos usando funciones como:

- `.isnull()`, `.dropna()`, `.fillna()` para nulos
- `.duplicated()`, `.drop_duplicates()` para duplicados
- `.astype()` para cambiar tipos de datos

### Objetivo
Detectar y corregir problemas comunes en los datos.

In [None]:
df = pd.DataFrame({
    "Nombre": ["Ana", "Luis", None, "Pedro", "Luis"],
    "Edad": [22, None, 20, 20, None]
})

print("Valores nulos:\n", df.isnull())
print("Sin nulos:\n", df.dropna())
print("Rellenar nulos:\n", df.fillna({"Nombre": "Desconocido", "Edad": df["Edad"].mean()}))

Valores nulos:
    Nombre   Edad
0   False  False
1   False   True
2    True  False
3   False  False
4   False   True
Sin nulos:
   Nombre  Edad
0    Ana  22.0
3  Pedro  20.0
Rellenar nulos:
         Nombre       Edad
0          Ana  22.000000
1         Luis  20.666667
2  Desconocido  20.000000
3        Pedro  20.000000
4         Luis  20.666667


### 🧪 Ejercicios
1. Crear un DataFrame con valores nulos y duplicados.
2. Eliminar duplicados.
3. Reemplazar nulos con un valor fijo o promedio.

In [None]:
jugadores = ({
    "Nombre" : ["Tomás", "Facundo", "Ignacio", "Facundo", None, "Pedro"],
    "Club": ["Ger", "Drc", None, "Drc", "Orc", None],
    "Edad": [18,29,28,29,None, None]
})

df = pd.DataFrame(jugadores)

#print(df,df.isnull())
#print(df,df.dropna )
print(df, df.fillna({"Nombre": "MARTIN", "Edad": df["Edad"].mean(), "Club": "Plaza"}))

    Nombre  Club  Edad
0    Tomás   Ger  18.0
1  Facundo   Drc  29.0
2  Ignacio  None  28.0
3  Facundo   Drc  29.0
4     None   Orc   NaN
5    Pedro  None   NaN     Nombre   Club  Edad
0    Tomás    Ger  18.0
1  Facundo    Drc  29.0
2  Ignacio  Plaza  28.0
3  Facundo    Drc  29.0
4   MARTIN    Orc  26.0
5    Pedro  Plaza  26.0


## 📐 Módulo 5: Estadísticas y Agrupación

### Teoría
Pandas permite realizar estadísticas descriptivas y agrupamientos de datos para resumenes analíticos:

- `.mean()`, `.sum()`, `.describe()`
- `.groupby()` para agrupar por categorías
- `.apply()` para aplicar funciones personalizadas

### Objetivo
Agrupar datos y calcular estadísticas por grupo.

In [None]:
df = pd.read_csv("https://raw.githubusercontent.com/mwaskom/seaborn-data/master/tips.csv")
print(df.groupby("sex")["tip"].mean())
print(df.groupby("day")["tip"].sum())

sex
Female    2.833448
Male      3.089618
Name: tip, dtype: float64
day
Fri      51.96
Sat     260.40
Sun     247.39
Thur    171.83
Name: tip, dtype: float64


### 🧪 Ejercicios
1. Agrupar por día y calcular la propina promedio.
2. Agrupar por sexo y total_bill promedio.
3. Crear una columna `propina_pct` = tip / total_bill y analizarla.

In [None]:
df = pd.read_csv("https://raw.githubusercontent.com/mwaskom/seaborn-data/master/tips.csv")
print(df.groupby("day")["tip"].mean())
df["propina_pct"] = df["tip"] / df["total_bill"]
print (df)

day
Fri     2.734737
Sat     2.993103
Sun     3.255132
Thur    2.771452
Name: tip, dtype: float64
     total_bill   tip     sex smoker   day    time  size  propina_pct
0         16.99  1.01  Female     No   Sun  Dinner     2     0.059447
1         10.34  1.66    Male     No   Sun  Dinner     3     0.160542
2         21.01  3.50    Male     No   Sun  Dinner     3     0.166587
3         23.68  3.31    Male     No   Sun  Dinner     2     0.139780
4         24.59  3.61  Female     No   Sun  Dinner     4     0.146808
..          ...   ...     ...    ...   ...     ...   ...          ...
239       29.03  5.92    Male     No   Sat  Dinner     3     0.203927
240       27.18  2.00  Female    Yes   Sat  Dinner     2     0.073584
241       22.67  2.00    Male    Yes   Sat  Dinner     2     0.088222
242       17.82  1.75    Male     No   Sat  Dinner     2     0.098204
243       18.78  3.00  Female     No  Thur  Dinner     2     0.159744

[244 rows x 8 columns]


In [None]:
df = pd.read_csv("empleados.csv")}

print(df.groupby("Departamento"))

## 🧮 Módulo 6: Operaciones y Transformaciones

### Teoría
Permite crear nuevas columnas, transformar datos y ordenar registros:

- Filtrar filas: `df[df["col"] > valor]`
- Crear columnas: `df["nueva"] = ...`
- Ordenar: `.sort_values(by="col")`

### Objetivo
Manipular y transformar los datos.

In [None]:
df["propina_pct"] = df["tip"] / df["total_bill"]
print(df.sort_values(by="propina_pct", ascending=False).head())

### 🧪 Ejercicios
1. Crear columna con total de cuenta + propina.
2. Filtrar filas donde `size > 3`.
3. Ordenar por total_bill descendente.

## 🔗 Módulo 7: Lectura y Escritura de Datos

### Teoría
Pandas puede leer y escribir múltiples formatos:

- `.read_csv()`, `.read_excel()`
- `.to_csv()`, `.to_excel()`

### Objetivo
Importar y exportar datasets desde/hacia archivos.

In [None]:
# Leer CSV
df = pd.read_csv("https://raw.githubusercontent.com/mwaskom/seaborn-data/master/tips.csv")

# Guardar a CSV
df.to_csv("tips_modificado.csv", index=False)

### 🧪 Ejercicios
1. Leer un archivo CSV local o remoto.
2. Guardar un resumen estadístico como nuevo archivo.

## 🧪 Módulo 8: Proyecto Final

### Objetivo
Aplicar todo lo aprendido a un dataset real.

### Actividades
1. Cargar el dataset `tips.csv`.
2. Limpiar datos si es necesario.
3. Calcular estadísticas: promedio, máximos, mínimos.
4. Agrupar por día y sexo.
5. Crear columnas nuevas como `% propina`.
6. Guardar archivo resultado como CSV.

# 🔢 Introducción a NumPy

NumPy es la librería base para cálculo numérico en Python. Permite crear y manipular arrays (vectores y matrices) de forma eficiente.

## 📦 Módulo 1: Arrays y Operaciones Básicas

### Teoría
- Un `array` de NumPy es similar a una lista, pero permite operaciones vectorizadas.
- Soporta arrays de cualquier dimensión.

### Objetivo
Crear arrays y aplicar operaciones matemáticas sobre ellos.

In [None]:
import numpy as np

# Crear un array unidimensional
a = np.array([1, 2, 3, 4])
print("Array a:", a)
print("a + 2:", a + 2)
print("a * 3:", a * 3)

# Crear array bidimensional
b = np.array([[1, 2], [3, 4]])
print("Matriz b:\n", b)
print("Transpuesta:\n", b.T)

### 🧪 Ejercicios
1. Crear un array con valores del 0 al 9.
2. Elevar al cuadrado cada elemento.
3. Crear una matriz 3x3 de números aleatorios enteros entre 1 y 10.

## 🔄 Módulo 2: Indexado y Slicing

### Teoría
Permite acceder a subconjuntos de datos usando índices o condiciones lógicas.

### Objetivo
Indexar elementos y subarrays.

In [None]:
arr = np.array([10, 20, 30, 40, 50])
print("Tercer elemento:", arr[2])
print("Últimos 3:", arr[-3:])
print("Elementos > 25:", arr[arr > 25])

### 🧪 Ejercicios
1. Crear un array con los múltiplos de 3 entre 3 y 30.
2. Seleccionar los mayores a 15.
3. Reemplazar los valores menores a 10 por 0.

## 🧮 Módulo 3: Operaciones Numéricas y Estadísticas

### Teoría
NumPy permite operaciones como:
- Suma, promedio, máximo, desviación estándar
- Funciones matemáticas: `np.sin`, `np.exp`, `np.sqrt`

### Objetivo
Aplicar funciones matemáticas y estadísticas.

In [None]:
x = np.array([1, 2, 3, 4, 5])
print("Suma:", np.sum(x))
print("Promedio:", np.mean(x))
print("Desviación estándar:", np.std(x))
print("Raíces cuadradas:", np.sqrt(x))

### 🧪 Ejercicios
1. Calcular el promedio de un array de notas.
2. Calcular la diferencia entre cada valor y la media.
3. Aplicar `np.log` a un array de valores positivos.