In [1]:
import pandas as pd
import numpy as np
from faker import Faker

# Configurar Faker para datos realistas
fake = Faker()
np.random.seed(42)  # Para reproducibilidad

# Generar tabla "Conductores"
conductores = pd.DataFrame({
    "conductor_id": range(1, 1001),
    "nombre": [fake.name() for _ in range(1000)],
    "edad": np.random.randint(25, 65, size=1000),
    "licencia": [fake.license_plate() for _ in range(1000)],
    "experiencia_años": np.random.randint(1, 40, size=1000)
})

# Generar tabla "Autobuses"
autobuses = pd.DataFrame({
    "autobus_id": range(1, 1001),
    "modelo": [fake.word(ext_word_list=['Mercedes', 'Volvo', 'Scania', 'MAN', 'Iveco']) for _ in range(1000)],
    "año_fabricación": np.random.randint(2000, 2023, size=1000),
    "capacidad": np.random.randint(20, 100, size=1000),
    "matricula": [fake.license_plate() for _ in range(1000)]
})

# Generar tabla "Viajes"
viajes = pd.DataFrame({
    "viaje_id": range(1, 1001),
    "fecha": pd.date_range(start="2023-01-01", periods=1000).tolist(),
    "autobus_id": np.random.randint(1, 1001, size=1000),
    "conductor_id": np.random.randint(1, 1001, size=1000),
    "distancia_km": np.random.randint(50, 1000, size=1000),
    "duracion_horas": np.random.uniform(1, 15, size=1000).round(2),
    "ingresos": np.random.uniform(500, 10000, size=1000).round(2)
})

# Relacionar tablas
# Asegurar que "autobus_id" y "conductor_id" en viajes existen en sus respectivas tablas
viajes = viajes[
    (viajes["autobus_id"].isin(autobuses["autobus_id"])) &
    (viajes["conductor_id"].isin(conductores["conductor_id"]))
]

# Mostrar ejemplos
print("Conductores:")
print(conductores.head(), "\n")
print("Autobuses:")
print(autobuses.head(), "\n")
print("Viajes:")
print(viajes.head())


Conductores:
   conductor_id            nombre  edad licencia  experiencia_años
0             1  Samantha Hendrix    63  5DO9407                14
1             2     Kimberly Pena    53  D63 5HG                22
2             3    Anthony Torres    39  V27-SCK                11
3             4       Sherry Lutz    32  K43 8QP                23
4             5   Megan Hernandez    45  FDJ1135                 1 

Autobuses:
   autobus_id    modelo  año_fabricación  capacidad matricula
0           1  Mercedes             2016         38   GRT-427
1           2  Mercedes             2002         30   XFI2073
2           3  Mercedes             2001         96   EPD 800
3           4    Scania             2022         65   3JA B51
4           5  Mercedes             2019         64   163 IWX 

Viajes:
   viaje_id      fecha  autobus_id  conductor_id  distancia_km  \
0         1 2023-01-01         946           725           767   
1         2 2023-01-02         212           762          

In [2]:
########################################################
##  1. Encontrar conductores sin viajes registrados:  ##
########################################################

nuevos = conductores.loc[~conductores["conductor_id"].isin(viajes["conductor_id"])].reset_index(drop=True)
print(nuevos)


     conductor_id             nombre  edad  licencia  experiencia_años
0               3     Anthony Torres    39   V27-SCK                11
1               7       Debra Golden    43  NGE-7012                21
2              11  Nathan Villanueva    48  NHJ 5490                 1
3              14         Aaron Cook    48   5UY 844                 9
4              15     Jason Villegas    27   M25 3NK                 9
..            ...                ...   ...       ...               ...
359           987         Jo Delgado    42  8F CT780                27
360           990      Matthew Welch    64  2C Q2884                 8
361           993         Cheryl Cox    28   W37 7PD                 3
362           996     Samantha Glenn    32   7155 QD                 6
363           997        James Simon    52  02-0641C                 2

[364 rows x 5 columns]


In [3]:
##########################################################
##  Identificar el conductor con más viajes realizados  ##
##########################################################

viajes_count = viajes["conductor_id"].value_counts() # Agrupamos por conductor

idxmax_viajes = viajes_count.idxmax() # id del conductor con más viajes
max_viajes = viajes_count.max() # número de viajes del conductor

# generamos copia para trabajar con seguridad veterano sin temor a modificar conductores
veterano = conductores[conductores["conductor_id"] == idxmax_viajes].copy()

veterano['num_viajes'] = max_viajes # veterano.loc[:, 'num_viajes'] = viajes_del_conductor # para más seguridad

veterano

Unnamed: 0,conductor_id,nombre,edad,licencia,experiencia_años,num_viajes
236,237,Dawn Blake,59,G 283378,23,6


In [4]:
#################################################################################################
##  Comparar la experiencia de los conductores en función de los ingresos generados:           ##
##  - Determina si los conductores con más años de experiencia generan más ingresos promedio.  ##
#################################################################################################

menos_años = conductores.sort_values('experiencia_años', ascending=True).head(100) # Seleccionamos los aue tienen menos experiencia
mas_años = conductores.nlargest(100, 'experiencia_años') # lo mismo de arriba también puedo hacerlo con ésta función, en éste caso para los que mas experiencia
mas_ingresos = viajes.nlargest(100, 'ingresos')

# Filtramos para quedarnos sólo con las posibles coincidencias entre ambas tablas, tanto para vet. como noobs
veteranos = mas_años[mas_años["conductor_id"].isin(mas_ingresos["conductor_id"])]
noobs = menos_años[menos_años["conductor_id"].isin(mas_ingresos["conductor_id"])]

# Fusionamos los DataFrames de veteranos y noobs y hacemos merge de ambos resultados
mejor_sueldo = pd.concat([veteranos, noobs])
mejor_sueldo = mejor_sueldo.merge(mas_ingresos[['conductor_id', 'ingresos']], on='conductor_id', how='left') # Añadimos columna ingresos

mejor_sueldo.sort_values(by='experiencia_años', ascending=True)

##############################################################################################################################
## CONCLUSIÓN: No, hay conductores con poca experiencia generando los mismos ingresos que otros con mucha más experiencia   ##
## POSIBLES PROBLEMAS:                                                                                                      ##
## - Duplicación de conductores: Si un conductor aparece en ambas listas (mas_años y menos_años), concat los combinará,     ##
##   y el merge posterior añadirá los ingresos a ambos registros. Esto puede generar duplicados y resultados inconsistentes.##
## - Posibles problemas de coincidencia: El uso de isin() filtra solo a los conductores que están presentes en ambas tablas ##
##   (mas_años y mas_ingresos), pero no garantiza que los ingresos sean calculados correctamente para todos los conductores.##
##############################################################################################################################

Unnamed: 0,conductor_id,nombre,edad,licencia,experiencia_años,ingresos
15,69,Kathleen Wood,64,797-CKF,1,9635.32
16,186,Laurie Fisher,30,QPI9980,2,9611.3
17,87,Kayla Wyatt,41,635-997,3,9641.02
18,846,Jon Jimenez,44,50G 413,3,9740.54
19,327,Amy Dominguez,53,JSH 385,4,9270.1
13,887,Benjamin Walker,36,CFP-358,36,9572.72
14,887,Benjamin Walker,36,CFP-358,36,9189.6
12,549,Heather Christian,63,06-R173,36,9556.51
11,731,Natasha Thompson,53,ZNE-252,37,9160.51
10,6,Michael Mcdaniel,63,6W 9645N,37,9350.76


In [5]:
## Solución "oficial" a la pregunta

ingresos_por_conductor = viajes.groupby("conductor_id")["ingresos"].mean()
experiencia_ingresos = conductores.merge(ingresos_por_conductor, on="conductor_id", how="left")
print(experiencia_ingresos[["nombre", "experiencia_años", "ingresos"]].sort_values("ingresos", ascending=False).dropna())

                nombre  experiencia_años  ingresos
881         Julie Cruz                29   9998.57
877  Kevin Jenkins Jr.                34   9980.79
781        Laura Villa                 8   9922.40
392    Melissa Hawkins                13   9912.11
341    Brian Hernandez                29   9890.66
..                 ...               ...       ...
564       Kevin Flores                38    564.99
105      Joanne Hinton                14    537.62
685      Kyle Gonzalez                23    522.07
381      Daniel George                11    512.05
509      Jordan Bright                16    507.10

[636 rows x 3 columns]


In [9]:
######################################################
##  Determinar el modelo de autobús más utilizado:  ##
######################################################

modelos_usos = viajes.groupby("autobus_id")[["distancia_km", "duracion_horas"]].sum()#.value_counts() # Agrupamos por conductor

# Identificamos el autobús más usado (por distancia_km)
indice_mas_usado = modelos_usos["distancia_km"].idxmax()

mas_usado = viajes[viajes["autobus_id"] == indice_mas_usado].copy()

#indice_mas_usado = modelos_usos.nlargest(1, 'distancia_km')

mas_usado["num_viajes"] = viajes[viajes["autobus_id"] == indice_mas_usado].shape[0]

modelo_mas_usado = modelo_mas_usado.merge(autobuses[["autobus_id", "modelo"]], on="autobus_id", how="left")

modelo_mas_usado


Unnamed: 0,viaje_id,fecha,autobus_id,conductor_id,distancia_km,duracion_horas,ingresos,num_viajes,modelo_x,modelo_y
0,56,2023-02-25,721,498,886,13.07,4523.08,5,Volvo,Volvo
1,216,2023-08-04,721,537,587,6.3,5320.2,5,Volvo,Volvo
2,421,2024-02-25,721,982,680,7.53,6808.31,5,Volvo,Volvo
3,696,2024-11-26,721,766,990,5.14,6479.53,5,Volvo,Volvo
4,742,2025-01-11,721,660,797,3.42,7607.0,5,Volvo,Volvo


Para la exploración, manipulación y limpieza de datos utilizando Pandas, es crucial dominar una serie de técnicas y funciones fundamentales. A continuación, te presento las áreas clave:

### 1. Exploración de Datos

La exploración inicial es fundamental para entender los datos y detectar posibles problemas.

Carga de datos: Usar `pd.read_csv()`, `pd.read_excel()`, `pd.read_sql()` y otros para importar datos desde diferentes fuentes.
Revisión básica de los datos:

`df.head()`, `df.tail()`: Ver las primeras o últimas filas del DataFrame.

`df.info()`: Obtener información sobre el tipo de datos y valores no nulos.

`df.describe()`: Resumen estadístico de las columnas numéricas.

`df.shape`: Número de filas y columnas.

`df.columns`: Ver nombres de columnas.

    
### 2. Manipulación de Datos

Estas son las funciones básicas para modificar y transformar datos.

Selección y filtrado:

`df['columna']`: Seleccionar una columna específica.

`df.loc[]`: Acceder a filas y columnas mediante etiquetas.

`df.iloc[]`: Acceder a filas y columnas mediante índices numéricos.

Filtrado por condiciones: `df[df['columna'] > valor]` o `df.query('condición')`.

Agregación y agrupamiento:

`df.groupby('columna')`: Agrupar los datos según una columna y aplicar funciones como sum(), mean(), count().

`df.pivot_table()`: Crear tablas dinámicas con varias agregaciones.

Transformaciones de columnas:

`df['columna'].apply(func)`: Aplicar una función personalizada a una columna.

`df['columna'].map()`, `df['columna'].replace()`: Reemplazar valores de columnas.

`df['columna'].astype(tipo)`: Cambiar el tipo de datos de una columna.

Ordenación y cambio de forma:

`df.sort_values(by='columna')`: Ordenar los datos por una columna.

`df.melt(), df.pivot()`: Transformar el formato de los datos, por ejemplo, de ancho a largo.


### 3. Limpieza de Datos

La limpieza es esencial para garantizar la calidad de los datos antes de analizarlos.

Manejo de valores nulos:

`df.isnull(), df.notnull()`: Identificar valores nulos o faltantes.

`df.dropna()`: Eliminar filas con valores nulos.

`df.fillna(valor)`: Rellenar valores nulos con un valor constante o mediante interpolación.

Eliminación de duplicados:

`df.drop_duplicates()`: Eliminar filas duplicadas basadas en todas o algunas columnas.

Manejo de outliers:

Identificar outliers mediante visualización (usando matplotlib o seaborn) y luego decidir si eliminarlos o transformarlos.
Conversión y normalización de datos:

`df['columna'] = df['columna'].str.replace()`: Reemplazar caracteres en cadenas.
Normalización: Asegurarse de que los valores numéricos estén dentro de un rango coherente para análisis posterior.

    
### 4. Funciones Avanzadas

Merge y Join de DataFrames:

`pd.merge()`: Combinar múltiples DataFrames basados en claves comunes (equivalente a los JOINs en SQL).

`df.join()`: Unir DataFrames con índices comunes.

Trabajo con fechas:

`pd.to_datetime()`: Convertir cadenas a fechas.

`df['fecha'].dt.year, df['fecha'].dt.month`: Extraer partes de una fecha.

Uso de funciones de ventanas:

`df.rolling()`: Realizar agregaciones con una ventana deslizante (útil para análisis de series temporales).

`df.expanding()`: Realizar agregaciones con una ventana expansiva.


Recomendaciones adicionales para profundizar:
Documentación oficial de Pandas: https://pandas.pydata.org/pandas-docs/stable/
Libros como Python for Data Analysis de Wes McKinney (creador de Pandas).
Tutoriales y blogs:
DataCamp
Kaggle
Estas habilidades te permitirán realizar una exploración eficiente, manipulación flexible y limpieza robusta de datos, lo que te ayudará a trabajar con conjuntos de datos complejos y tomar decisiones informadas.