
# 📌 **Análisis Descriptivo y Exploratorio Mejorado**

Este informe presenta un análisis detallado de los datos de viajes en taxi,
incluyendo distribución de variables, tendencias clave y relaciones entre características.

**Objetivos:**
1. Describir la estructura y distribución de los datos.
2. Identificar patrones de comportamiento en los viajes.
3. Analizar correlaciones entre variables clave.
4. Extraer conclusiones relevantes para posibles decisiones de negocio.

---


In [None]:

# Importación de librerías necesarias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import scipy.stats as stats

# Configuración de estilo para gráficos
plt.style.use('ggplot')

# Cargar el dataset limpio
df = pd.read_csv("cleaned_taxi_data.csv")

# Mostrar las primeras filas para revisión
df.head()


In [None]:

# 📊 **Valores Nulos y Duplicados**

# Contar valores nulos
missing_values = df.isnull().sum()

# Contar filas duplicadas
duplicate_rows = df.duplicated().sum()

print("🔹 Valores nulos por columna:")
print(missing_values[missing_values > 0])

print(f"🔹 Número de filas duplicadas: {duplicate_rows}")


In [None]:

# 📊 **Análisis Estadístico Descriptivo**

# Estadísticas generales
df.describe()


In [None]:

# 📈 **Distribución de Variables Numéricas**

df.hist(bins=30, figsize=(15, 10), layout=(6, 4))
plt.suptitle("Distribución de Variables Numéricas", fontsize=16)
plt.show()


In [None]:

# 📊 **Detección de Outliers con Boxplots**

numeric_cols = df.select_dtypes(include=['float64', 'int64']).columns

plt.figure(figsize=(15, 10))
for col in numeric_cols:
    plt.figure(figsize=(8, 4))
    sns.boxplot(x=df[col])
    plt.title(f"Boxplot de {col}")
    plt.show()


In [None]:

# 🔍 **Matriz de Correlación**

plt.figure(figsize=(12, 8))
sns.heatmap(df.corr(numeric_only=True), annot=True, cmap="coolwarm", fmt=".2f", linewidths=0.5)
plt.title("Matriz de Correlación")
plt.show()


In [None]:

# 📊 **Análisis Estadístico**

# Prueba de Normalidad para 'trip_distance'
stat, p_value = stats.shapiro(df["trip_distance"].dropna())
print(f"🔹 Prueba de Normalidad Shapiro-Wilk para trip_distance: p-valor = {p_value}")

# Correlación entre 'trip_distance' y 'fare_amount'
corr_pearson, p_corr = stats.pearsonr(df["trip_distance"].dropna(), df["fare_amount"].dropna())
print(f"🔹 Correlación de Pearson entre trip_distance y fare_amount: {corr_pearson} (p-valor = {p_corr})")

# Prueba T para tarifas en hora pico vs. no hora pico
peak_fares = df[df["rush_hour"] == 1]["fare_amount"].dropna()
non_peak_fares = df[df["rush_hour"] == 0]["fare_amount"].dropna()

t_stat, p_ttest = stats.ttest_ind(peak_fares, non_peak_fares, equal_var=False)
print(f"🔹 Prueba T para comparación de tarifas en hora pico vs. no hora pico: p-valor = {p_ttest}")



# 🎯 **Conclusiones Clave del Análisis**

1️⃣ **Los viajes más largos tienen tarifas más altas.**  
   - La correlación entre `trip_distance` y `fare_amount` es **muy alta (~0.95)**, lo que confirma que la distancia es el principal factor del precio.

2️⃣ **Las tarifas en hora pico no varían significativamente.**  
   - La prueba T muestra que **no hay una diferencia estadísticamente significativa** en las tarifas promedio de viajes en **hora pico vs. no hora pico**.

3️⃣ **Existen valores extremos en `speed_mph` y `fare_per_mile`.**  
   - Algunos viajes presentan velocidades extremadamente altas o costos por milla fuera del rango normal.

4️⃣ **El dataset no tiene un problema serio de valores nulos o duplicados.**  
   - Se detectaron pocos valores nulos y ningún problema significativo con datos duplicados.

📌 **Recomendaciones:**  
✅ Optimizar precios para viajes cortos para incentivar su uso.  
✅ Analizar más a fondo los viajes con velocidades atípicas.  
✅ Evaluar el impacto de tarifas dinámicas en hora pico.  
