In [None]:

# Importación de librerías necesarias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import scipy.stats as stats

# Configuración de estilo para gráficos
plt.style.use('ggplot')


In [None]:

# Cargar el dataset limpio generado previamente
df = pd.read_csv("cleaned_taxi_data.csv")

# Mostrar las primeras filas para revisión
df.head()


In [None]:

# Análisis Descriptivo de los Datos

# Resumen general del dataset
print("Información del Dataset:")
df.info()

# Estadísticas descriptivas generales
df.describe()


In [None]:

# Visualización de la distribución de variables numéricas

df.hist(bins=30, figsize=(15, 10), layout=(6, 4))
plt.suptitle("Distribución de Variables Numéricas", fontsize=16)
plt.show()


In [None]:

# Tablas de Frecuencia para Variables Categóricas

categorical_cols = df.select_dtypes(include=['object', 'category']).columns

for col in categorical_cols:
    print(f"Frecuencia de valores en {col}:")
    print(df[col].value_counts())
    print("-" * 40)


In [None]:

# Matriz de Correlación
plt.figure(figsize=(12, 8))
sns.heatmap(df.corr(numeric_only=True), annot=True, cmap="coolwarm", fmt=".2f", linewidths=0.5)
plt.title("Matriz de Correlación")
plt.show()


In [None]:

# Análisis Estadístico

# Prueba de Normalidad para 'trip_distance'
stat, p_value = stats.shapiro(df["trip_distance"].dropna())
print(f"Prueba de Normalidad Shapiro-Wilk para trip_distance: p-valor = {p_value}")

# Prueba de correlación entre 'trip_distance' y 'fare_amount'
corr_pearson, p_corr = stats.pearsonr(df["trip_distance"].dropna(), df["fare_amount"].dropna())
print(f"Correlación de Pearson entre trip_distance y fare_amount: {corr_pearson} (p-valor = {p_corr})")

# Prueba t de comparación de medias entre viajes en hora pico y no hora pico
peak_fares = df[df["rush_hour"] == 1]["fare_amount"].dropna()
non_peak_fares = df[df["rush_hour"] == 0]["fare_amount"].dropna()

t_stat, p_ttest = stats.ttest_ind(peak_fares, non_peak_fares, equal_var=False)
print(f"Prueba T para comparación de tarifas en hora pico vs. no hora pico: p-valor = {p_ttest}")


In [None]:

# Guardar estadísticas descriptivas en un archivo CSV
df.describe().to_csv("descriptive_stats.csv")
print("Estadísticas descriptivas guardadas en 'descriptive_stats.csv'")
