## Tratar datos duplicados y perdidos

Se exploran dos temas fundamentales para el análisis de datos: **gestión de la información duplicada** y la **gestión de la información faltante** o **"missing data"**.

In [3]:
import pandas as pd
import os

path = "C:\COVID_pruebas"
os.listdir(path)
#Esto me dice cuáles son los archivos de esa ruta

['201128 Catalogos.xlsx',
 '201128 Descriptores_.xlsx',
 '220118COVID19MEXICO.csv',
 'Actualizaciones en la presentación de información referente a casos de COVID.pdf',
 'base_datos_2008.csv']

### ***Gestión de registros duplicados***

A continuación, se presenta un ejemplo de cómo eliminar datos duplicados con la función ***.drop_duplicates()***

In [26]:
n = 10**6
df = pd.read_csv(r"C:\COVID_pruebas\base_datos_2008.csv", nrows=n )

df.head(3)
print("Las dimensiones son:",df.shape)
# No sabemos si nuestros datos tienen filas duplicadadas.
# Se tienen 10**6 registros.

Las dimensiones son: (1000000, 29)


In [30]:
df_clean = df.drop_duplicates()
print("Las dimensiones son:",df_clean.shape)

Las dimensiones son: (999996, 29)


In [36]:
df_clean_2 = df.drop_duplicates(subset="DayofMonth")

df_clean_2.head()

print("Elimina los datos duplicados. Únicamente se contempla un día del mes. Por ejemplo: No hay dos días 4")
print("Las dimensiones son:",df_clean_2.shape)
print("Un registro por cada día del mes")

Elimina los datos duplicados. Únicamente se contempla un día del mes. Por ejemplo: No hay dos días 4
Las dimensiones son: (31, 29)
Un registro por cada día del mes


**Observación:** No se sabía que la tabla tenía datos duplicados, pero ya se eliminaron con **.drop_duplicates()**

### ***Gestión de datos faltantes***

A continuación, se presenta un ejemplo de cómo tratar con datos faltantes con la función ***.dropna()***

In [44]:
df_datos_faltantes = df.dropna()
print("Las dimensiones son:",df_datos_faltantes.shape)
#No se tienen datos faltantes en ningún registro, dado que se haya hecho el vuelo o no, queda la información del vuelo.
# Lo que no habría, es hora de llegada y hora de salida.

Las dimensiones son: (0, 29)


In [46]:
df[ pd.isna( df["DepTime"] ) ].head()
# Conocemos cuáles son los registros que no tienen un valor en "DepTime" 

Unnamed: 0,Year,Month,DayofMonth,DayOfWeek,DepTime,CRSDepTime,ArrTime,CRSArrTime,UniqueCarrier,FlightNum,...,TaxiIn,TaxiOut,Cancelled,CancellationCode,Diverted,CarrierDelay,WeatherDelay,NASDelay,SecurityDelay,LateAircraftDelay
178,2008,1,3,4,,700,,830,WN,126,...,,,1,A,0,,,,,
373,2008,1,3,4,,1100,,1215,WN,1146,...,,,1,A,0,,,,,
399,2008,1,3,4,,905,,1025,WN,469,...,,,1,A,0,,,,,
401,2008,1,3,4,,1620,,1740,WN,618,...,,,1,C,0,,,,,
415,2008,1,3,4,,1930,,2035,WN,2528,...,,,1,A,0,,,,,


In [62]:
# Procedemos a eliminar esos registros

df_no_faltantes = df.dropna( subset=["DepTime"] )
#Ya no hay datos faltantes en "DepTime"

## Introducción a la librería Numpy

**Numpy** es uno de los paquetes orientados al análisis matemático y científico de datos, disponible para **Python**

In [63]:
import numpy as np

In [66]:
valoraciones = np.array([ [1,2,3], [4,5,6], [7,8,9] ])

valoraciones

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])