# Se Importan librerias y dataframe 

In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

# Cargar los datos desde el almacenamiento
df_medallion = pd.read_csv('Medallion_clean.csv')

# Mostrar las primeras filas de cada DataFrame
print(df_medallion.head())


# Se eliminan columnas inecesarias

# Razones para la Eliminación

**Name, Expiration Date, Current Status:**

*Motivo:* Información administrativa que no es esencial para el análisis de eficiencia operativa o emisiones.

**DMV License Plate Number:**

*Motivo:* Número de identificación de la placa del vehículo, no relevante para el análisis de nuestro objetivo.

**Medallion Type, Agent Number, Agent Telephone Number, Agent Name:**

*Motivo:* Información administrativa sobre agentes y tipos de medallones, no crítica para el análisis de operaciones.

**Agent Website Address, Agent Address:**

*Motivo:* Información adicional sobre agentes, no aporta valor significativo al análisis principal de eficiencia y emisiones.

**Last Time Updated:**

*Motivo:* Esta columna se integra con Last Date Updated para formar una única columna *Last Updated*, facilitando así la eliminación de duplicados y manteniendo la información más reciente.


In [None]:
# Columnas a eliminar
columnas_a_eliminar_medallion =  [
    'Name', 'Expiration Date', 'Current Status', 'DMV License Plate Number',
    'Medallion Type', 'Agent Number', 'Agent Telephone Number', 'Agent Name',
    'Agent Website Address','Agent Address', 'Last Time Updated'
]


# Eliminar columnas
df_medallion = df_medallion.drop(columns=columnas_a_eliminar_medallion, errors='ignore')


# Ver Valores nulos en Medallion

In [None]:
# Valores nulos en Medallion
print("Valores nulos en Medallion:")
display(df_medallion.isnull().sum())


# Buscar duplicados

In [None]:
# Contar valores duplicados de 'License Number'
duplicate_license_count = df_medallion['License Number'].duplicated().sum()

# Mostrar el conteo
print(f"Cantidad de valores duplicados de 'License Number': {duplicate_license_count}")

In [None]:
# Obtener la cantidad total de registros
total_records = len(df_medallion)

# Mostrar la cantidad total
print(f"Cantidad total de registros en df_medallion: {total_records}")

In [None]:
# Contar valores duplicados de 'Vehicle VIN Number'
duplicate_vin_count = df_medallion['Vehicle VIN Number'].duplicated().sum()

# Mostrar el conteo
print(f"Cantidad de valores duplicados de 'Vehicle VIN Number': {duplicate_vin_count}")

# Eliminar duplicados y tomar valor de ultima fecha actualizada

In [None]:
# Ordenar por 'Vehicle VIN Number' y 'Last Date Updated'
df_medallion_sorted = df_medallion.sort_values(by=['Vehicle VIN Number', 'Last Date Updated'], ascending=[True, False])

# Eliminar duplicados de 'Vehicle VIN Number', manteniendo el más reciente
df_medallion = df_medallion_sorted.drop_duplicates(subset='Vehicle VIN Number', keep='first')

# Ordenar el DataFrame limpio por 'License Number' y 'Last Date Updated'
df_medallion = df_medallion_clean.sort_values(by=['License Number', 'Last Date Updated'], ascending=[True, False])

# Eliminar duplicados de 'License Number' en el DataFrame limpio, manteniendo el más reciente
df_medallion = df_medallion_clean.drop_duplicates(subset='License Number', keep='first')

print(df_medallion.head())


# Reemplazar valores NaN en la columna 'Vehicle Type' con 'SD'


In [None]:
# Reemplazar valores NaN en la columna 'Vehicle Type' con 'SD'
df_medallion['Vehicle Type'] = df_medallion['Vehicle Type'].fillna('SD')

# Corregir la columna Model_Year de df

In [None]:

# Eliminar filas con valores NaN en la columna 'Model Year'
df_medallion = df_medallion.dropna(subset=['Model Year'])

# Convertir la columna 'Model Year' a enteros sin decimales
df_medallion['Model Year'] = df_medallion['Model Year'].astype(int)

# Verificar los cambios
print(df_medallion['Model Year'].dtype)
print(df_medallion.head())

# Se Exporta a CVS limpio 

In [None]:

df_medallion.to_csv('medallion_clean.csv', index=False)

# Analisis de los datos ya limpios

In [None]:
# Cargar el archivo CSV
file_path = r'medallion_clean111.csv'
df_medallion_clean = pd.read_csv(file_path)

# Describir el DataFrame
print("Descripción del DataFrame:")
print(df_medallion_clean.describe(include='all'))

# Verificar valores nulos
print("\nValores nulos por columna:")
print(df_medallion_clean.isnull().sum())

# Buscar duplicados
print("\nCantidad de filas duplicadas:")
print(df_medallion_clean.duplicated().sum())

# Analizar tipos de datos
print("\nTipos de datos por columna:")
print(df_medallion_clean.dtypes)

print(f"Cantidad de líneas en df_medallion_clean: {len(df_medallion_clean)}")