# **Introducción a Python Científico**
## Entornos, NumPy, Pandas y Matplotlib con datos reales
### _Cesar Garcia - 2025_

En este notebook vamos a:
- Recordar cómo trabajar con entornos (conceptualmente).
- Usar **NumPy** para operaciones numéricas.
- Usar **Pandas** con un conjunto de datos real.
- Visualizar los datos con **Matplotlib**.


## ¿Qué es NumPy?

- Librería fundamental para cálculo numérico.

- Provee estructuras de datos eficientes: ndarray.

- Operaciones vectorizadas (muy rápidas).

- Funciones matemáticas avanzadas.|

## ¿Qué es Pandas?

- Librería para análisis de datos.

- Estructuras principales:

    - Series (vector)

    - DataFrame (tabla)

- Ideal para datos CSV, Excel, JSON, SQL.

## ¿Qué es Matplotlib?

- Librería para visualización de datos.

- Permite crear:

    - Gráficas de líneas

    - Barras

    - Histogramas

    - Dispersión

    - Subplots

## 1. Entornos de Python 
En Google Colab ya tenemos un entorno preparado, pero en tu máquina local normalmente harías:

```bash
python3 -m venv .venv
source .venv/bin/activate      # Linux / macOS
.\.venv\Scripts\activate     # Windows
pip install numpy pandas matplotlib
```

En Colab, si necesitas instalar algo extra, usarías:
```python
# !pip install numpy pandas matplotlib
```


## 2. Importar librerías


In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

%matplotlib inline


## 3. NumPy con ejemplos básicos
Empezamos con arreglos (`ndarray`) y operaciones vectorizadas.


In [None]:
# Crear algunos arreglos
a = np.array([1, 2, 3])
b = np.zeros((2, 3))
c = np.random.rand(3, 3)

print("a =", a)
print("\nb =\n", b)
print("\nc =\n", c)


In [None]:
# Operaciones elemento a elemento y producto punto
x = np.array([1, 2, 3])
y = np.array([4, 5, 6])

print("x + y =", x + y)
print("x * y =", x * y)
print("dot(x, y) =", np.dot(x, y))


In [None]:
# Estadísticas rápidas
mat = np.random.randn(4, 4)
print("mat =\n", mat)
print("\nmean =", mat.mean())
print("std =", mat.std())
print("sum =", mat.sum())
print("max =", mat.max())


## 4. Pandas con un dataset real (propinas en un restaurante)
Vamos a usar el conjunto de datos **`tips`**, que contiene información real sobre cuentas y propinas en un restaurante.

Lo cargaremos desde un archivo CSV público en GitHub.


In [None]:
url_tips = "https://raw.githubusercontent.com/mwaskom/seaborn-data/master/tips.csv"
tips = pd.read_csv(url_tips)
tips.head()


### Información básica del DataFrame


In [None]:
tips.info()


In [None]:
tips.describe()


### Filtrado, selección y agregaciones


In [None]:
# Filtrar cuentas con total_bill mayor a 40
tips[tips["total_bill"] > 40].head()


In [None]:
# Promedio de propina por día de la semana
tips.groupby("day")["tip"].mean()


In [None]:
# Porcentaje de propina sobre la cuenta total y promedio por día
tips["tip_pct"] = tips["tip"] / tips["total_bill"] * 100
tips.groupby("day")["tip_pct"].mean()


## 5. Visualización con Matplotlib usando el dataset de propinas


In [None]:
# Gráfica de barras: total de cuenta promedio por día
mean_bill_by_day = tips.groupby("day")["total_bill"].mean()

plt.figure()
mean_bill_by_day.plot(kind="bar")
plt.title("Cuenta promedio por día")
plt.xlabel("Día")
plt.ylabel("Total de la cuenta (promedio)")
plt.tight_layout()
plt.show()


In [None]:
# Dispersión: total de la cuenta vs propina
plt.figure()
plt.scatter(tips["total_bill"], tips["tip"])
plt.title("Total de la cuenta vs Propina")
plt.xlabel("Total de la cuenta")
plt.ylabel("Propina")
plt.tight_layout()
plt.show()


In [None]:
# Histograma del porcentaje de propina
plt.figure()
plt.hist(tips["tip_pct"], bins=20)
plt.title("Distribución del porcentaje de propina")
plt.xlabel("% propina")
plt.ylabel("Frecuencia")
plt.tight_layout()
plt.show()


## 6. Segundo dataset real: Iris (clasificación de flores)
Usaremos el clásico dataset **Iris**, que contiene medidas de pétalos y sépalos de tres especies de flores.


In [None]:
url_iris = "https://raw.githubusercontent.com/mwaskom/seaborn-data/master/iris.csv"
iris = pd.read_csv(url_iris)
iris.head()


In [None]:
iris.info()


In [None]:
# Dispersión: largo vs ancho del pétalo coloreado por especie
species = iris["species"].unique()

plt.figure()
for sp in species:
    subset = iris[iris["species"] == sp]
    plt.scatter(subset["petal_length"], subset["petal_width"], label=sp)

plt.title("Pétalo: largo vs ancho por especie")
plt.xlabel("Largo del pétalo")
plt.ylabel("Ancho del pétalo")
plt.legend()
plt.tight_layout()
plt.show()


# 7. Conclusiones
- **NumPy**: nos da arreglos y operaciones numéricas eficientes.
- **Pandas**: facilita la carga, exploración y transformación de datos reales.
- **Matplotlib**: nos permite visualizar patrones y distribuciones.

Estos tres módulos son la base del ecosistema científico de Python.
