# 04.01 - Series y DataFrames

**Autor:** Miguel Angel Vazquez Varela  
**Nivel:** Fundamentos  
**Tiempo estimado:** 30 min

---

## Que aprenderemos?

- Que es pandas y por que usarlo
- Crear y manipular Series
- Crear y manipular DataFrames
- Acceder a datos basicos

---

## 1. Que es pandas?

**pandas** es LA libreria para analisis de datos en Python:

- Maneja datos tabulares (filas y columnas)
- Lee/escribe CSV, Excel, SQL, JSON...
- Operaciones vectorizadas (rapidas)
- Integrado con matplotlib, numpy, sklearn...

In [1]:
import pandas as pd
import numpy as np

print(f"pandas version: {pd.__version__}")

pandas version: 3.0.0


---

## 2. Series: una columna de datos

Una **Series** es un array unidimensional con indice.

### Crear una Series desde lista

In [2]:
# Duraciones de viajes en minutos
durations = pd.Series([12, 25, 8, 45, 15])
durations

0    12
1    25
2     8
3    45
4    15
dtype: int64

Observa: pandas asigna un indice numerico automatico (0, 1, 2...)

### Series con indice personalizado

In [3]:
# Bicis disponibles por estacion
bikes = pd.Series(
    [15, 8, 22, 5],
    index=["Sol", "Atocha", "Cibeles", "Retiro"]
)
bikes

Sol        15
Atocha      8
Cibeles    22
Retiro      5
dtype: int64

### Acceder a elementos

In [4]:
# Por etiqueta
print(f"Bicis en Sol: {bikes['Sol']}")

Bicis en Sol: 15


In [5]:
# Por posicion
print(f"Primera estacion: {bikes.iloc[0]}")

Primera estacion: 15


In [6]:
# Multiples estaciones
bikes[["Sol", "Cibeles"]]

Sol        15
Cibeles    22
dtype: int64

### Operaciones con Series

In [7]:
# Operaciones aritmeticas (vectorizadas)
bikes_doubled = bikes * 2
bikes_doubled

Sol        30
Atocha     16
Cibeles    44
Retiro     10
dtype: int64

In [8]:
# Estadisticas basicas
print(f"Total bicis: {bikes.sum()}")
print(f"Media: {bikes.mean():.1f}")
print(f"Max: {bikes.max()}")

Total bicis: 50
Media: 12.5
Max: 22


In [9]:
# Filtrado booleano
bikes[bikes > 10]

Sol        15
Cibeles    22
dtype: int64

---

## 3. DataFrame: una tabla de datos

Un **DataFrame** es una tabla bidimensional (filas y columnas).

### Crear DataFrame desde diccionario

In [10]:
# Datos de viajes en bici
trips = pd.DataFrame({
    "trip_id": [1, 2, 3, 4, 5],
    "duration_min": [12, 25, 8, 45, 15],
    "distance_km": [2.5, 5.0, 1.8, 8.2, 3.1],
    "station_start": ["Sol", "Atocha", "Sol", "Retiro", "Cibeles"]
})

trips

Unnamed: 0,trip_id,duration_min,distance_km,station_start
0,1,12,2.5,Sol
1,2,25,5.0,Atocha
2,3,8,1.8,Sol
3,4,45,8.2,Retiro
4,5,15,3.1,Cibeles


### Informacion basica del DataFrame

In [11]:
# Dimensiones
print(f"Forma: {trips.shape}")
print(f"Filas: {len(trips)}")

Forma: (5, 4)
Filas: 5


In [12]:
# Nombres de columnas
trips.columns.tolist()

['trip_id', 'duration_min', 'distance_km', 'station_start']

In [13]:
# Tipos de datos
trips.dtypes

trip_id            int64
duration_min       int64
distance_km      float64
station_start        str
dtype: object

In [14]:
# Resumen completo
trips.info()

<class 'pandas.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 4 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   trip_id        5 non-null      int64  
 1   duration_min   5 non-null      int64  
 2   distance_km    5 non-null      float64
 3   station_start  5 non-null      str    
dtypes: float64(1), int64(2), str(1)
memory usage: 292.0 bytes


### Ver primeras/ultimas filas

In [15]:
trips.head(3)  # primeras 3 filas

Unnamed: 0,trip_id,duration_min,distance_km,station_start
0,1,12,2.5,Sol
1,2,25,5.0,Atocha
2,3,8,1.8,Sol


In [16]:
trips.tail(2)  # ultimas 2 filas

Unnamed: 0,trip_id,duration_min,distance_km,station_start
3,4,45,8.2,Retiro
4,5,15,3.1,Cibeles


---

## 4. Acceder a columnas

In [17]:
# Con corchetes (siempre funciona)
trips["duration_min"]

0    12
1    25
2     8
3    45
4    15
Name: duration_min, dtype: int64

In [18]:
# Con punto (solo si nombre es valido)
trips.distance_km

0    2.5
1    5.0
2    1.8
3    8.2
4    3.1
Name: distance_km, dtype: float64

In [19]:
# Multiples columnas
trips[["trip_id", "duration_min"]]

Unnamed: 0,trip_id,duration_min
0,1,12
1,2,25
2,3,8
3,4,45
4,5,15


**Nota:** Una columna de DataFrame es una Series!

In [20]:
type(trips["duration_min"])

pandas.Series

---

## 5. Estadisticas descriptivas

In [21]:
# Resumen estadistico de columnas numericas
trips.describe()

Unnamed: 0,trip_id,duration_min,distance_km
count,5.0,5.0,5.0
mean,3.0,21.0,4.12
std,1.581139,14.815532,2.572353
min,1.0,8.0,1.8
25%,2.0,12.0,2.5
50%,3.0,15.0,3.1
75%,4.0,25.0,5.0
max,5.0,45.0,8.2


In [22]:
# Estadisticas individuales
print(f"Duracion media: {trips['duration_min'].mean():.1f} min")
print(f"Distancia total: {trips['distance_km'].sum():.1f} km")

Duracion media: 21.0 min
Distancia total: 20.6 km


In [23]:
# Conteo de valores unicos
trips["station_start"].value_counts()

station_start
Sol        2
Atocha     1
Retiro     1
Cibeles    1
Name: count, dtype: int64

---

## 6. Crear nuevas columnas

In [24]:
# Calcular velocidad
trips["speed_kmh"] = trips["distance_km"] / (trips["duration_min"] / 60)
trips

Unnamed: 0,trip_id,duration_min,distance_km,station_start,speed_kmh
0,1,12,2.5,Sol,12.5
1,2,25,5.0,Atocha,12.0
2,3,8,1.8,Sol,13.5
3,4,45,8.2,Retiro,10.933333
4,5,15,3.1,Cibeles,12.4


In [25]:
# Clasificar viajes
trips["is_long"] = trips["duration_min"] > 20
trips

Unnamed: 0,trip_id,duration_min,distance_km,station_start,speed_kmh,is_long
0,1,12,2.5,Sol,12.5,False
1,2,25,5.0,Atocha,12.0,True
2,3,8,1.8,Sol,13.5,False
3,4,45,8.2,Retiro,10.933333,True
4,5,15,3.1,Cibeles,12.4,False


---

## 7. Crear DataFrame desde otras fuentes

### Desde lista de diccionarios

In [26]:
stations_data = [
    {"name": "Sol", "bikes": 15, "docks": 30},
    {"name": "Atocha", "bikes": 8, "docks": 25},
    {"name": "Cibeles", "bikes": 22, "docks": 35}
]

stations = pd.DataFrame(stations_data)
stations

Unnamed: 0,name,bikes,docks
0,Sol,15,30
1,Atocha,8,25
2,Cibeles,22,35


### Desde array de NumPy

In [27]:
data = np.random.randint(1, 100, size=(4, 3))

df_from_numpy = pd.DataFrame(
    data,
    columns=["A", "B", "C"],
    index=["row1", "row2", "row3", "row4"]
)

df_from_numpy

Unnamed: 0,A,B,C
row1,81,61,96
row2,75,90,6
row3,54,12,86
row4,96,46,1


---

## Resumen

| Estructura | Descripcion | Crear |
|------------|-------------|-------|
| Series | 1D con indice | `pd.Series([1,2,3])` |
| DataFrame | 2D (tabla) | `pd.DataFrame({...})` |

| Metodo | Que hace |
|--------|----------|
| `.head()` | Primeras filas |
| `.info()` | Resumen estructura |
| `.describe()` | Estadisticas |
| `.dtypes` | Tipos de columnas |

---

**Anterior:** [03.03 - NumPy: Operaciones](../03_numpy_essentials/03_03_operations.ipynb)  
**Siguiente:** [04.02 - Lectura de Datos](04_02_reading_data.ipynb)