
# üìå **An√°lisis Descriptivo y Exploratorio Mejorado**

Este informe presenta un an√°lisis detallado de los datos de viajes en taxi,
incluyendo distribuci√≥n de variables, tendencias clave y relaciones entre caracter√≠sticas.

**Objetivos:**
1. Describir la estructura y distribuci√≥n de los datos.
2. Identificar patrones de comportamiento en los viajes.
3. Analizar correlaciones entre variables clave.
4. Extraer conclusiones relevantes para posibles decisiones de negocio.

---


In [None]:

# Importaci√≥n de librer√≠as necesarias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import scipy.stats as stats

# Configuraci√≥n de estilo para gr√°ficos
plt.style.use('ggplot')

# Cargar el dataset limpio
df = pd.read_csv("cleaned_taxi_data.csv")

# Mostrar las primeras filas para revisi√≥n
df.head()


In [None]:

# üìä **Valores Nulos y Duplicados**

# Contar valores nulos
missing_values = df.isnull().sum()

# Contar filas duplicadas
duplicate_rows = df.duplicated().sum()

print("üîπ Valores nulos por columna:")
print(missing_values[missing_values > 0])

print(f"üîπ N√∫mero de filas duplicadas: {duplicate_rows}")


In [None]:

# üìä **An√°lisis Estad√≠stico Descriptivo**

# Estad√≠sticas generales
df.describe()


In [None]:

# üìà **Distribuci√≥n de Variables Num√©ricas**

df.hist(bins=30, figsize=(15, 10), layout=(6, 4))
plt.suptitle("Distribuci√≥n de Variables Num√©ricas", fontsize=16)
plt.show()


In [None]:

# üìä **Detecci√≥n de Outliers con Boxplots**

numeric_cols = df.select_dtypes(include=['float64', 'int64']).columns

plt.figure(figsize=(15, 10))
for col in numeric_cols:
    plt.figure(figsize=(8, 4))
    sns.boxplot(x=df[col])
    plt.title(f"Boxplot de {col}")
    plt.show()


In [None]:

# üîç **Matriz de Correlaci√≥n**

plt.figure(figsize=(12, 8))
sns.heatmap(df.corr(numeric_only=True), annot=True, cmap="coolwarm", fmt=".2f", linewidths=0.5)
plt.title("Matriz de Correlaci√≥n")
plt.show()


In [None]:

# üìä **An√°lisis Estad√≠stico**

# Prueba de Normalidad para 'trip_distance'
stat, p_value = stats.shapiro(df["trip_distance"].dropna())
print(f"üîπ Prueba de Normalidad Shapiro-Wilk para trip_distance: p-valor = {p_value}")

# Correlaci√≥n entre 'trip_distance' y 'fare_amount'
corr_pearson, p_corr = stats.pearsonr(df["trip_distance"].dropna(), df["fare_amount"].dropna())
print(f"üîπ Correlaci√≥n de Pearson entre trip_distance y fare_amount: {corr_pearson} (p-valor = {p_corr})")

# Prueba T para tarifas en hora pico vs. no hora pico
peak_fares = df[df["rush_hour"] == 1]["fare_amount"].dropna()
non_peak_fares = df[df["rush_hour"] == 0]["fare_amount"].dropna()

t_stat, p_ttest = stats.ttest_ind(peak_fares, non_peak_fares, equal_var=False)
print(f"üîπ Prueba T para comparaci√≥n de tarifas en hora pico vs. no hora pico: p-valor = {p_ttest}")



# üéØ **Conclusiones Clave del An√°lisis**

1Ô∏è‚É£ **Los viajes m√°s largos tienen tarifas m√°s altas.**  
   - La correlaci√≥n entre `trip_distance` y `fare_amount` es **muy alta (~0.95)**, lo que confirma que la distancia es el principal factor del precio.

2Ô∏è‚É£ **Las tarifas en hora pico no var√≠an significativamente.**  
   - La prueba T muestra que **no hay una diferencia estad√≠sticamente significativa** en las tarifas promedio de viajes en **hora pico vs. no hora pico**.

3Ô∏è‚É£ **Existen valores extremos en `speed_mph` y `fare_per_mile`.**  
   - Algunos viajes presentan velocidades extremadamente altas o costos por milla fuera del rango normal.

4Ô∏è‚É£ **El dataset no tiene un problema serio de valores nulos o duplicados.**  
   - Se detectaron pocos valores nulos y ning√∫n problema significativo con datos duplicados.

üìå **Recomendaciones:**  
‚úÖ Optimizar precios para viajes cortos para incentivar su uso.  
‚úÖ Analizar m√°s a fondo los viajes con velocidades at√≠picas.  
‚úÖ Evaluar el impacto de tarifas din√°micas en hora pico.  
