<a href="https://colab.research.google.com/github/aformen9/CienciaDeDatos/blob/branch01/Copia_de_UCA_ED_2025_PANDAS_Y_NUMPY.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 🐼 Curso Básico de Pandas

Este curso está diseñado para introducirte al uso de Pandas, una de las librerías más importantes de Python para análisis de datos.

## 🔰 Módulo 1: Introducción a Pandas

### Teoría
Pandas es una librería de Python diseñada para la manipulación y análisis de datos. Proporciona estructuras como `Series` y `DataFrames`.

- `Series`: vectores unidimensionales con índice.
- `DataFrame`: tablas bidimensionales.

### Objetivo
Aprender a importar la librería y crear estructuras básicas.

In [None]:
import pandas as pd

# Crear una Serie
serie = pd.Series([10, 20, 30], index=["a", "b", "c"])
serie1 = serie.to_string

print(serie1(dtype=False))

# Crear un DataFrame
data = {
    "Nombre": ["Ana", "Luis", "Pedro"],
    "Edad": [22, 25, 20]
}
df = pd.DataFrame(data)
print(df)

a    10
b    20
c    30
  Nombre  Edad
0    Ana    22
1   Luis    25
2  Pedro    20


### 🧪 Ejercicios
1. Importar pandas como `pd`.
2. Crear una `Series` con temperaturas diarias.
3. Crear un `DataFrame` con nombre, carrera y nota.

In [None]:
# Importar pandas como pd:
import pandas as pd

In [None]:
# Series de temperatura diara:
serie = pd.Series([20, 22, 21, 23, 25, 30, 15], index=["Lun","Mar", "Mier", "Jue", "Vie", "Sab", "Dom"])
serie1 = serie.to_string
print(serie1(dtype=False))

Lun     20
Mar     22
Mier    21
Jue     23
Vie     25
Sab     30
Dom     15


In [None]:
# Creacion de DF:
data = {
    "Nombre": ["Juan", "Andres", "Agustin"],
    "Carrera": ["CD", "CD", "CD"],
    "Nota": [8, 8, 8]
}
df = pd.DataFrame(data)
print(df)

    Nombre Carrera  Nota
0     Juan      CD     8
1   Andres      CD     8
2  Agustin      CD     8


## 📊 Módulo 2: Series

### Teoría
Una `Series` es un arreglo con etiquetas. Permite operaciones vectorizadas y selección por índice.

### Objetivo
Manejar Series y realizar operaciones básicas.

In [None]:
import pandas as pd
temperaturas = pd.Series([25, 28, 31, 30, 27], index=["Lun", "Mar", "Mié", "Jue", "Vie"])
print("Media:", temperaturas.mean())
temperaturas_mayores_30 = temperaturas[temperaturas >= 30]
temperaturas1 = temperaturas_mayores_30.to_string
print(">30°C:\n", temperaturas1(dtype=False))

Media: 28.2
>30°C:
 Mié    31
Jue    30


### 🧪 Ejercicios
1. Crear una `Series` con precios del dólar.
2. Obtener el valor máximo y mínimo.
3. Filtrar los valores mayores al promedio.

In [None]:
# Serie con precios del usd de la semana:
dolar = pd.Series([1190, 1193, 1195, 1191, 1200, 1187, 1190], index = ["Lun", "Mar", "Mié", "Jue", "Vie", "Sab", "Dom"])
# Precio max y min del dolar:
dolar_max = dolar.max()
dolar_min = dolar.min()
# Filtrar valores mayores al promedio:
dolar_prom = dolar.mean()
dolar_may_prom = dolar[dolar > dolar_prom]
# Printeamos todo:

print(f"Precio USD esta semana: \n{dolar.to_string(index=True, dtype=False)}\n")
print(f"Precio max: {dolar_max}\n")
print(f"Precio min {dolar_min}\n")
print(f"Valor promedio: {dolar_prom}\n")
print(f"Valores mayores al promedio:\n{dolar_may_prom.to_string(index=True, dtype=False)}")

Precio USD esta semana: 
Lun    1190
Mar    1193
Mié    1195
Jue    1191
Vie    1200
Sab    1187
Dom    1190

Precio max: 1200

Precio min 1187

Valor promedio: 1192.2857142857142

Valores mayores al promedio:
Mar    1193
Mié    1195
Vie    1200


## 🧱 Módulo 3: DataFrames

### Teoría
Un `DataFrame` es una tabla de datos con filas y columnas etiquetadas.

### Objetivo
Acceder y modificar información en DataFrames.

In [None]:
alumnos = pd.DataFrame({
    "Nombre": ["Laura", "Nico", "Sofía"],
    "Edad": [23, 21, 22],
    "Carrera": ["Datos", "Química", "Física"]
})
print(alumnos["Edad"])
print(alumnos.iloc[1])

### 🧪 Ejercicios
1. Crear un DataFrame de 5 alumnos.
2. Agregar columna "Aprobado" (nota ≥ 6).
3. Filtrar alumnos aprobados.

In [None]:
# DF de 5 alumnos:
alumnos = pd.DataFrame({
    "Nombre": ["Laura", "Nico", "Sofía", "Juan", "Pedro"],
    #"Edad": [23, 21, 22, 30, 26],
    #"Carrera": ["Datos", "Química", "Física", "LQ", "IQ"],
    "Nota": [5.5, 8.0, 6.3, 7.9, 3.2]
})

# Agregamos columna aprobados
alumnos["Aprobado"] = alumnos["Nota"] >= 6

# Filtramos por aprobados
aprobados = alumnos[alumnos["Aprobado"]]

# Printeamos
#print("DataFrame Completo:\n", alumnos.to_string(index=False))
print("\nAlumnos Aprobados:\n", aprobados.to_string(index=False))


Alumnos Aprobados:
 Nombre  Nota  Aprobado
  Nico   8.0      True
 Sofía   6.3      True
  Juan   7.9      True


## 🧼 Módulo 4: Limpieza de Datos

### Teoría
En Pandas es común trabajar con datos incompletos o incorrectos. Podemos identificar y limpiar estos datos usando funciones como:

- `.isnull()`, `.dropna()`, `.fillna()` para nulos
- `.duplicated()`, `.drop_duplicates()` para duplicados
- `.astype()` para cambiar tipos de datos
- `.loc[]` para seleccionar, filtrar y modificar filas o columnas en un DataFrame.
### Objetivo
Detectar y corregir problemas comunes en los datos.

In [None]:
df = pd.DataFrame({
    "Nombre": ["Ana", "Luis", None, "Pedro", "Luis"],
    "Edad": [22, None, 20, 20, None]
})

print("Valores nulos:\n", df.isnull())
print("Sin nulos:\n", df.dropna())
print("Rellenar nulos:\n", df.fillna({"Nombre": "Desconocido", "Edad": df["Edad"].mean()}))

### 🧪 Ejercicios
1. Crear un DataFrame con valores nulos y duplicados.
2. Eliminar duplicados.
3. Reemplazar nulos con un valor fijo o promedio.

In [None]:
# Creamos DF de autos:
autos = {
    "Modelo": ["Yaris", "Gol Trend", None, "Yaris", None],
    "Precio": [25000, None, 15000, 50000, None]
}

df = pd.DataFrame(autos)

# Eliminamos duplicados:
autos_sin_dup = df.drop_duplicates()

# Remplazamos nulos
autos_remplazados = df.fillna("A consultar")

### PASO EXTRA:

# Crear una copia del DataFrame para trabajar
catalogo_final = df.copy()

# Convertir la columna "Precio" a tipo object (texto)
catalogo_final["Precio"] = catalogo_final["Precio"].astype("object")

# Reemplazar los nulos directamente de manera segura
catalogo_final = catalogo_final.fillna({"Modelo": "A consultar"})

# Reemplazar precios solo si el modelo es "A consultar"
catalogo_final.loc[catalogo_final["Modelo"] == "A consultar", "Precio"] = "A consultar"

# Dropeamos valores nulos:
catalogo_final = catalogo_final.dropna()

###

#Printeamos:
print(f"Catalogo sin limpiar:\n {df}\n")
print(f"Catalogo sin duplicados:\n {autos_sin_dup}\n")
print(f"Catalogo casi completo:\n {autos_remplazados}\n")
print(f"Catalogo final:\n {catalogo_final}\n")

Catalogo sin limpiar:
       Modelo   Precio
0      Yaris  25000.0
1  Gol Trend      NaN
2       None  15000.0
3      Yaris  50000.0
4       None      NaN

Catalogo sin duplicados:
       Modelo   Precio
0      Yaris  25000.0
1  Gol Trend      NaN
2       None  15000.0
3      Yaris  50000.0
4       None      NaN

Catalogo casi completo:
         Modelo       Precio
0        Yaris      25000.0
1    Gol Trend  A consultar
2  A consultar      15000.0
3        Yaris      50000.0
4  A consultar  A consultar

Catalogo final:
         Modelo       Precio
0        Yaris      25000.0
2  A consultar  A consultar
3        Yaris      50000.0
4  A consultar  A consultar



## 📐 Módulo 5: Estadísticas y Agrupación

### Teoría
Pandas permite realizar estadísticas descriptivas y agrupamientos de datos para resumenes analíticos:

- `.mean()`, `.sum()`, `.describe()`
- `.groupby()` para agrupar por categorías
- `.apply()` para aplicar funciones personalizadas

### Objetivo
Agrupar datos y calcular estadísticas por grupo.

In [None]:
df = pd.read_csv("https://raw.githubusercontent.com/mwaskom/seaborn-data/master/tips.csv")
print(df.groupby("sex")["tip"].mean())
print(df.groupby("day")["tip"].sum())

sex
Female    2.833448
Male      3.089618
Name: tip, dtype: float64
day
Fri      51.96
Sat     260.40
Sun     247.39
Thur    171.83
Name: tip, dtype: float64


### 🧪 Ejercicios
1. Agrupar por día y calcular la propina promedio.
2. Agrupar por sexo y total_bill promedio.
3. Crear una columna `propina_pct` = tip / total_bill y analizarla.

In [None]:
df = pd.read_csv("https://raw.githubusercontent.com/mwaskom/seaborn-data/master/tips.csv")

# Agrupar por dia y calcular el tip promedio:
agrupar = df.groupby("day")["tip"].mean()
# Transformarlo en str para que no printee el dtpy
resultado = agrupar.to_string(name=False, dtype=False)
print(resultado)

# Agrupar x sexo y total bill prom:
total_bill = df.groupby("sex")["tip"].sum()
total_bill_mean = total_bill.mean()
print("Propina total promedio:", total_bill_mean)

# Creamos columna propina_pct:
df

day
Fri     2.734737
Sat     2.993103
Sun     3.255132
Thur    2.771452
Propina total promedio: 365.78999999999996


## 🧮 Módulo 6: Operaciones y Transformaciones

### Teoría
Permite crear nuevas columnas, transformar datos y ordenar registros:

- Filtrar filas: `df[df["col"] > valor]`
- Crear columnas: `df["nueva"] = ...`
- Ordenar: `.sort_values(by="col")`

### Objetivo
Manipular y transformar los datos.

In [None]:
df["propina_pct"] = df["tip"] / df["total_bill"]
print(df.sort_values(by="propina_pct", ascending=False).head())

### 🧪 Ejercicios
1. Crear columna con total de cuenta + propina.
2. Filtrar filas donde `size > 3`.
3. Ordenar por total_bill descendente.

## 🔗 Módulo 7: Lectura y Escritura de Datos

### Teoría
Pandas puede leer y escribir múltiples formatos:

- `.read_csv()`, `.read_excel()`
- `.to_csv()`, `.to_excel()`

### Objetivo
Importar y exportar datasets desde/hacia archivos.

In [None]:
# Leer CSV
df = pd.read_csv("https://raw.githubusercontent.com/mwaskom/seaborn-data/master/tips.csv")

# Guardar a CSV
df.to_csv("tips_modificado.csv", index=False)

### 🧪 Ejercicios
1. Leer un archivo CSV local o remoto.
2. Guardar un resumen estadístico como nuevo archivo.

## 🧪 Módulo 8: Proyecto Final

### Objetivo
Aplicar todo lo aprendido a un dataset real.

### Actividades
1. Cargar el dataset `tips.csv`.
2. Limpiar datos si es necesario.
3. Calcular estadísticas: promedio, máximos, mínimos.
4. Agrupar por día y sexo.
5. Crear columnas nuevas como `% propina`.
6. Guardar archivo resultado como CSV.

# 🔢 Introducción a NumPy

NumPy es la librería base para cálculo numérico en Python. Permite crear y manipular arrays (vectores y matrices) de forma eficiente.

## 📦 Módulo 1: Arrays y Operaciones Básicas

### Teoría
- Un `array` de NumPy es similar a una lista, pero permite operaciones vectorizadas.
- Soporta arrays de cualquier dimensión.

### Objetivo
Crear arrays y aplicar operaciones matemáticas sobre ellos.

In [None]:
import numpy as np

# Crear un array unidimensional
a = np.array([1, 2, 3, 4])
print("Array a:", a)
print("a + 2:", a + 2)
print("a * 3:", a * 3)

# Crear array bidimensional
b = np.array([[1, 2], [3, 4]])
print("Matriz b:\n", b)
print("Transpuesta:\n", b.T)

### 🧪 Ejercicios
1. Crear un array con valores del 0 al 9.
2. Elevar al cuadrado cada elemento.
3. Crear una matriz 3x3 de números aleatorios enteros entre 1 y 10.

## 🔄 Módulo 2: Indexado y Slicing

### Teoría
Permite acceder a subconjuntos de datos usando índices o condiciones lógicas.

### Objetivo
Indexar elementos y subarrays.

In [None]:
arr = np.array([10, 20, 30, 40, 50])
print("Tercer elemento:", arr[2])
print("Últimos 3:", arr[-3:])
print("Elementos > 25:", arr[arr > 25])

### 🧪 Ejercicios
1. Crear un array con los múltiplos de 3 entre 3 y 30.
2. Seleccionar los mayores a 15.
3. Reemplazar los valores menores a 10 por 0.

## 🧮 Módulo 3: Operaciones Numéricas y Estadísticas

### Teoría
NumPy permite operaciones como:
- Suma, promedio, máximo, desviación estándar
- Funciones matemáticas: `np.sin`, `np.exp`, `np.sqrt`

### Objetivo
Aplicar funciones matemáticas y estadísticas.

In [None]:
x = np.array([1, 2, 3, 4, 5])
print("Suma:", np.sum(x))
print("Promedio:", np.mean(x))
print("Desviación estándar:", np.std(x))
print("Raíces cuadradas:", np.sqrt(x))

### 🧪 Ejercicios
1. Calcular el promedio de un array de notas.
2. Calcular la diferencia entre cada valor y la media.
3. Aplicar `np.log` a un array de valores positivos.