# Tutorial de pandas: Limpieza de datos, muestras aleatorias, agrupamiento y ordenamiento

## Limpieza de datos
- Revisar la fuente de datos para ver datos faltantes
- Llenar datos vacios
- Eliminar filas con datos vacios

In [59]:
import pandas as pd
dfDatos = pd.read_csv("datos/mexico_covid19.csv")
dfDatos.shape

(263007, 41)

In [60]:
# Buscar datos faltantes por columna => isna() isnull() Es exactamente lo mismo
# Valores faltantes => '', NaN => El valor no existe o hubo error y no se incluyo
# isna() => Evalua si una columna esta vacia y resulta en True o False
dfDatos["EDAD"].isna()
dfDatos["EDAD"].isna().sum()

0

In [61]:
dfDatos.columns

Index(['id', 'FECHA_ARCHIVO', 'ID_REGISTRO', 'ENTIDAD_UM', 'ENTIDAD_RES',
       'RESULTADO', 'DELAY', 'ENTIDAD_REGISTRO', 'ENTIDAD', 'ABR_ENT',
       'FECHA_ACTUALIZACION', 'ORIGEN', 'SECTOR', 'SEXO', 'ENTIDAD_NAC',
       'MUNICIPIO_RES', 'TIPO_PACIENTE', 'FECHA_INGRESO', 'FECHA_SINTOMAS',
       'FECHA_DEF', 'INTUBADO', 'NEUMONIA', 'EDAD', 'NACIONALIDAD', 'EMBARAZO',
       'HABLA_LENGUA_INDIG', 'DIABETES', 'EPOC', 'ASMA', 'INMUSUPR',
       'HIPERTENSION', 'OTRA_COM', 'CARDIOVASCULAR', 'OBESIDAD',
       'RENAL_CRONICA', 'TABAQUISMO', 'OTRO_CASO', 'MIGRANTE',
       'PAIS_NACIONALIDAD', 'PAIS_ORIGEN', 'UCI'],
      dtype='object')

In [62]:
# Sumar todas las filas de la columna EDAD en la tabla
# sum, min, max, mean, value_counts
print(dfDatos["EDAD"].sum())
print("--")
print(dfDatos["EDAD"].min())
print("--")
print(dfDatos["EDAD"].max())
print("--")
print(dfDatos["EDAD"].mean())
print("--")
print(dfDatos["EDAD"].value_counts())

11201896
--
0
--
120
--
42.591626838829384
--
30     6645
31     6517
36     6507
37     6489
38     6418
       ... 
105       1
111       1
107       1
118       1
115       1
Name: EDAD, Length: 117, dtype: int64


In [63]:
dfDatos.isna()
dfDatos.isna().sum()
#dfDatos.isna().sum().sum()

id                     0
FECHA_ARCHIVO          0
ID_REGISTRO            0
ENTIDAD_UM             0
ENTIDAD_RES            0
RESULTADO              0
DELAY                  0
ENTIDAD_REGISTRO       0
ENTIDAD                0
ABR_ENT                0
FECHA_ACTUALIZACION    0
ORIGEN                 0
SECTOR                 0
SEXO                   0
ENTIDAD_NAC            0
MUNICIPIO_RES          6
TIPO_PACIENTE          0
FECHA_INGRESO          0
FECHA_SINTOMAS         0
FECHA_DEF              0
INTUBADO               0
NEUMONIA               0
EDAD                   0
NACIONALIDAD           0
EMBARAZO               0
HABLA_LENGUA_INDIG     0
DIABETES               0
EPOC                   0
ASMA                   0
INMUSUPR               0
HIPERTENSION           0
OTRA_COM               0
CARDIOVASCULAR         0
OBESIDAD               0
RENAL_CRONICA          0
TABAQUISMO             0
OTRO_CASO              0
MIGRANTE               0
PAIS_NACIONALIDAD      0
PAIS_ORIGEN            0


In [64]:
dfDatos.columns

Index(['id', 'FECHA_ARCHIVO', 'ID_REGISTRO', 'ENTIDAD_UM', 'ENTIDAD_RES',
       'RESULTADO', 'DELAY', 'ENTIDAD_REGISTRO', 'ENTIDAD', 'ABR_ENT',
       'FECHA_ACTUALIZACION', 'ORIGEN', 'SECTOR', 'SEXO', 'ENTIDAD_NAC',
       'MUNICIPIO_RES', 'TIPO_PACIENTE', 'FECHA_INGRESO', 'FECHA_SINTOMAS',
       'FECHA_DEF', 'INTUBADO', 'NEUMONIA', 'EDAD', 'NACIONALIDAD', 'EMBARAZO',
       'HABLA_LENGUA_INDIG', 'DIABETES', 'EPOC', 'ASMA', 'INMUSUPR',
       'HIPERTENSION', 'OTRA_COM', 'CARDIOVASCULAR', 'OBESIDAD',
       'RENAL_CRONICA', 'TABAQUISMO', 'OTRO_CASO', 'MIGRANTE',
       'PAIS_NACIONALIDAD', 'PAIS_ORIGEN', 'UCI'],
      dtype='object')

In [38]:
#MUNICIPIO_RES 
#dfDatos["MUNICIPIO_RES"].nunique()
#dfDatos[(dfDatos["EDAD"] > 50) & (dfDatos["EMBARAZO"] == 1)]

# Filtar todas las filas donde MUNICIO_RES este vacio
dfMunicipiosVacios = dfDatos[dfDatos["MUNICIPIO_RES"].isna()]
#dfMunicipiosVacios[["ID_REGISTRO", "RESULTADO", "MUNICIPIO_RES"]]
dfMunicipiosVacios["ENTIDAD"].value_counts()

dfSinNaNs = dfDatos.dropna()
print(dfSinNaNs.shape)
print(dfDatos.shape)

(263001, 41)
(263007, 41)


In [44]:
print(dfMunicipiosVacios["ENTIDAD"].unique()) # Valores diferentes
print("--")
print(dfMunicipiosVacios["ENTIDAD"].value_counts()) # Distribucion
print("--")
dfMunicipiosVacios[["EDAD", "RESULTADO", "ENTIDAD", "MUNICIPIO_RES"]]

['Baja California' 'Ciudad de Mexico' 'Baja California Sur']
--
Baja California        4
Ciudad de Mexico       1
Baja California Sur    1
Name: ENTIDAD, dtype: int64
--


Unnamed: 0,EDAD,RESULTADO,ENTIDAD,MUNICIPIO_RES
817,48,2,Baja California,
2134,49,1,Baja California,
2794,34,2,Ciudad de Mexico,
24802,36,2,Baja California,
25880,43,1,Baja California,
27722,75,1,Baja California Sur,


In [65]:
# Remplazar datos faltantes
# fillna(x) => x:Un valor, x:Un diccionario, x:Funcion

# Substituir cualquier dato NaN por -1
dfF1 = dfDatos.fillna(-1)
dfF1[dfF1["MUNICIPIO_RES"] == -1]["ENTIDAD"].value_counts()

Baja California        4
Ciudad de Mexico       1
Baja California Sur    1
Name: ENTIDAD, dtype: int64

In [66]:
# fillna(diccionario)
# Llaves son las columnas y valores son los valores a susutitur en caso de encontrar NaNs
dfF1 = dfDatos.fillna({"MUNICIPIO_RES":-1, "ENTIDAD":"DESCONOCIDO"})

In [67]:
# fillna(funciones)
# Sustituye los valores faltantes con el promedio de 
# la columna donde se encuentra el valor
dfF1 = dfDatos.fillna(dfDatos.mean())

KeyboardInterrupt: 

In [69]:
dfDatos["ENTIDAD"].mean()

KeyboardInterrupt: 

## Generar un  muestra de la tabla

In [75]:
# Utilizando el atributo iloc
# lista[x:y]
miLista = [0, 1, 2, 3, 4]
print(miLista) # Imprime toda la lista
print("--")
print(miLista[0]) # Imprimir primer elemento
print("--")
print(miLista[1]) # Segundo elemento
print("--")
print(miLista[2])
print("--")
print(miLista[-1]) # ???
print("------")


# Slice => incio : fin + 1
print(miLista[0:3])
print(miLista[:3])

[0, 1, 2, 3, 4]
--
0
--
1
--
2
--
4
------
[0, 1, 2]
[0, 1, 2]


In [79]:
# df.iloc
dfSeleccion = dfDatos.iloc[:3] # Primeras 3 filas
dfSeleccion = dfDatos.iloc[1:6] # Filas del indice 2 al 5

1    98.0
2    19.0
3    33.0
4    15.0
5    39.0
Name: MUNICIPIO_RES, dtype: float64

In [83]:
# df.sample(n=X, random_state=Y) => X cantidad de elementos y tome Y como referencia
dfDatos.sample(n=5, random_state=2)

# df.sample(frac=X) => Selecionar X% de datos de la tabla
dfSeleccion = dfDatoss.sample(frac=0.5)
dfSeleccion

Unnamed: 0,id,FECHA_ARCHIVO,ID_REGISTRO,ENTIDAD_UM,ENTIDAD_RES,RESULTADO,DELAY,ENTIDAD_REGISTRO,ENTIDAD,ABR_ENT,...,OTRA_COM,CARDIOVASCULAR,OBESIDAD,RENAL_CRONICA,TABAQUISMO,OTRO_CASO,MIGRANTE,PAIS_NACIONALIDAD,PAIS_ORIGEN,UCI
152598,3288410,2020-05-18,1ad6ab,27,27,1,0,27,Tabasco,TC,...,1,2,1,2,2,1,99,MÃ©xico,99,97
251860,6872051,2020-06-02,09d3bf,31,31,2,0,31,Yucatan,YN,...,2,2,2,2,2,99,99,MÃ©xico,99,97
22782,16916,2020-04-12,18fb1b,9,9,1,0,9,Ciudad de Mexico,DF,...,2,2,2,2,2,1,99,99,97,97
111809,2159265,2020-05-10,066fc6,9,15,2,0,15,Mexico,MC,...,2,2,2,2,1,99,99,MÃ©xico,99,97
39539,349073,2020-04-19,1080e3,26,26,2,0,26,Sonora,SR,...,2,2,1,2,2,1,99,99,97,97
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
41950,381043,2020-04-20,0114a9,14,14,1,0,14,Jalisco,JC,...,2,2,2,2,2,1,99,99,97,97
154703,3543452,2020-05-19,1467b7,1,1,2,0,1,Aguascalientes,AS,...,2,1,1,2,2,2,99,MÃ©xico,99,97
212361,5179937,2020-05-27,12cbb8,9,15,1,0,15,Mexico,MC,...,2,2,2,2,2,1,99,MÃ©xico,99,97
35381,239864,2020-04-17,117825,9,9,2,0,9,Ciudad de Mexico,DF,...,2,2,1,2,2,99,99,MÃ©xico,97,2


In [85]:
dfSeleccion["EDAD"].mean()

48.2

## Preguntas de Ernesto
- Hombres mayores de 30y con obesidad
- id de personas con asma
- Promedio de edad que presentan tabaquismo

## Preguntas de Maritza
- Cuantas mujeres son de Sinaloa?
- Cuantos adultos mayores estan en la UCI?
- Cuantas personas que estan en la UCI padecen de ASMA?

## Preguntas del profe
- Cual es la distribucion de hombres>30y con obesidad en Sinaloa?
- Cual es la distribucion de promedio de edad en la repulica que presentan tabaquismo?
   - Edad minima
   - Edad maxima
- Cuales son los tres estados con mayor cantida de pacientes en la UCI con padecen de ASMA?