# Tutorial de Pandas: Como exportar, importar y adjuntar multiples DataFrames

In [11]:
# Lectura de datos de COVID
import pandas as pd

df_datosCovid = pd.read_csv("datos/mexico_covid19.csv")
df_datosCovid.dtypes

id                       int64
FECHA_ARCHIVO           object
ID_REGISTRO             object
ENTIDAD_UM               int64
ENTIDAD_RES              int64
RESULTADO                int64
DELAY                    int64
ENTIDAD_REGISTRO         int64
ENTIDAD                 object
ABR_ENT                 object
FECHA_ACTUALIZACION     object
ORIGEN                   int64
SECTOR                   int64
SEXO                     int64
ENTIDAD_NAC              int64
MUNICIPIO_RES          float64
TIPO_PACIENTE            int64
FECHA_INGRESO           object
FECHA_SINTOMAS          object
FECHA_DEF               object
INTUBADO                 int64
NEUMONIA                 int64
EDAD                     int64
NACIONALIDAD             int64
EMBARAZO                 int64
HABLA_LENGUA_INDIG       int64
DIABETES                 int64
EPOC                     int64
ASMA                     int64
INMUSUPR                 int64
HIPERTENSION             int64
OTRA_COM                 int64
CARDIOVA

## Exportar el DataFrame en dos archivos, uno con todas las columnas que vamos a estudiar y otro con las columnas extra: `datos_estudio` y `datos_extra`

In [13]:
colsEstudio = ["FECHA_ARCHIVO", "id", "ENTIDAD", "ORIGEN", "SEXO", "EMBARAZO", "EDAD", 
               "RESULTADO", "ASMA", "OBESIDAD", "HIPERTENSION", "UCI"]
df_datosEstudio = df_datosCovid[colsEstudio]
df_datosEstudio.to_pickle("datos/datos_bin.pkl")

colsExtra = ["id",  "TABAQUISMO", "CARDIOVASCULAR"]
df_datosExtra = df_datosCovid[colsExtra]
df_datosExtra.to_csv("datos/datos_extra.csv")

### Formato de archivos
Todos formatos de archivo presentan ventajas y desventajas entre ellos. En este caso, el formato pickle o `.pkl` es un archivo binario (como RAR). En cambio, el formato `.csv` es texto sin comprimir y su contenido puede ser legible para humanos.

## Importar y combinar archivos de datos

In [18]:
df_estudio = pd.read_pickle("datos/datos_bin.pkl")
df_extra = pd.read_csv("datos/datos_extra.csv")
df_completo = pd.merge(df_estudio, df_extra, how="inner", on="id")
df_completo

Unnamed: 0.1,FECHA_ARCHIVO,id,ENTIDAD,ORIGEN,SEXO,EMBARAZO,EDAD,RESULTADO,ASMA,OBESIDAD,HIPERTENSION,UCI,Unnamed: 0,TABAQUISMO,CARDIOVASCULAR
0,2020-04-12,9269,Sinaloa,2,2,97,74,2,2,1,1,97,0,2,2
1,2020-04-12,33333,Jalisco,1,1,2,71,2,2,1,1,2,1,1,2
2,2020-04-12,35483,Chihuahua,1,2,97,50,1,2,2,2,2,2,2,2
3,2020-04-12,7062,Ciudad de Mexico,2,1,2,25,1,2,1,2,97,3,2,2
4,2020-04-12,23745,Ciudad de Mexico,1,1,2,28,2,2,2,2,97,4,2,2
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
263002,2020-06-03,7094887,Zacatecas,2,2,97,39,1,2,2,2,97,263002,2,2
263003,2020-06-03,7053721,Guerrero,2,1,2,53,1,2,1,2,2,263003,2,2
263004,2020-06-03,7055429,Oaxaca,1,1,2,65,1,2,2,1,2,263004,2,2
263005,2020-06-03,7043768,Hidalgo,2,2,97,71,1,2,2,1,2,263005,2,2


## `columns` `unique` `nunique` `value_counts` `map` 

In [27]:
print(">> Columnas en el archivo:\n{}".format(df_completo.columns)) 

>> Columnas en el archivo:
Index(['FECHA_ARCHIVO', 'id', 'ENTIDAD', 'ORIGEN', 'SEXO', 'EMBARAZO', 'EDAD',
       'RESULTADO', 'ASMA', 'OBESIDAD', 'HIPERTENSION', 'UCI', 'Unnamed: 0',
       'TABAQUISMO', 'CARDIOVASCULAR'],
      dtype='object')


In [23]:
print(">> Valores unicos:\n{}".format(df_completo["ENTIDAD"].unique()))
print(">> Total de valores unicos: {}".format(df_completo["ENTIDAD"].nunique()))

>> Valores unicos: ['Sinaloa' 'Jalisco' 'Chihuahua' 'Ciudad de Mexico' 'Nuevo Leon' 'Morelos'
 'Tabasco' 'Mexico' 'Coahuila' 'Tamaulipas' 'Guanajuato' 'San Luis Potosi'
 'Yucatan' 'Baja California' 'Puebla' 'Zacatecas' 'Hidalgo'
 'Baja California Sur' 'Sonora' 'Michoacan' 'Veracruz' 'Aguascalientes'
 'Durango' 'Guerrero' 'Oaxaca' 'Tlaxcala' 'Nayarit' 'Chiapas' 'Queretaro'
 'Quintana Roo' 'Colima' 'Campeche']
>> Total de valores unicos: 32


In [26]:
print(">> Distribucion de valores unicos:\n{}".format(df_completo["ENTIDAD"].value_counts()))

>> Distribucion de valores unicos:
Ciudad de Mexico       61725
Mexico                 35752
Jalisco                13184
Guanajuato             13100
Nuevo Leon             12812
Tabasco                10019
Baja California         8905
Puebla                  8237
Veracruz                7930
Tamaulipas              7711
Coahuila                7560
Sinaloa                 7354
Michoacan               6773
Sonora                  5304
Yucatan                 5167
San Luis Potosi         4957
Aguascalientes          4796
Guerrero                3972
Chihuahua               3891
Hidalgo                 3691
Quintana Roo            3598
Oaxaca                  3520
Chiapas                 3489
Tlaxcala                3219
Morelos                 3199
Queretaro               2727
Durango                 2404
Baja California Sur     2321
Nayarit                 1786
Zacatecas               1655
Campeche                1596
Colima                   653
Name: ENTIDAD, dtype: int64


## Crear nuevas columnas y transformar columnas

In [39]:
df_completo.columns

Index(['FECHA_ARCHIVO', 'id', 'ENTIDAD', 'ORIGEN', 'SEXO', 'EMBARAZO', 'EDAD',
       'RESULTADO', 'ASMA', 'OBESIDAD', 'HIPERTENSION', 'UCI', 'Unnamed: 0',
       'TABAQUISMO', 'CARDIOVASCULAR', 'NUEVA_HIPERTENSION'],
      dtype='object')

In [42]:
df_completo["RIESGO"] = df_completo["ASMA"] + df_completo["OBESIDAD"] + df_completo["HIPERTENSION"]
df_completo

Unnamed: 0.1,FECHA_ARCHIVO,id,ENTIDAD,ORIGEN,SEXO,EMBARAZO,EDAD,RESULTADO,ASMA,OBESIDAD,HIPERTENSION,UCI,Unnamed: 0,TABAQUISMO,CARDIOVASCULAR,NUEVA_HIPERTENSION,RIESGO
0,2020-04-12,9269,Sinaloa,2,2,97,74,2,2,1,1,97,0,2,2,2,4
1,2020-04-12,33333,Jalisco,1,1,2,71,2,2,1,1,2,1,1,2,2,4
2,2020-04-12,35483,Chihuahua,1,2,97,50,1,2,2,2,2,2,2,2,3,6
3,2020-04-12,7062,Ciudad de Mexico,2,1,2,25,1,2,1,2,97,3,2,2,3,5
4,2020-04-12,23745,Ciudad de Mexico,1,1,2,28,2,2,2,2,97,4,2,2,3,6
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
263003,2020-06-03,7053721,Guerrero,2,1,2,53,1,2,1,2,2,263003,2,2,3,5
263004,2020-06-03,7055429,Oaxaca,1,1,2,65,1,2,2,1,2,263004,2,2,2,5
263005,2020-06-03,7043768,Hidalgo,2,2,97,71,1,2,2,1,2,263005,2,2,2,5
263006,2020-06-03,7093277,Ciudad de Mexico,2,1,2,18,1,2,2,2,97,263006,2,2,3,6


In [46]:
def calcularFactor(fila):
    resultado = fila["RIESGO"] / ((fila["CARDIOVASCULAR"] * fila["EDAD"]) + 1)
    return resultado

df_completo["FACTOR_CARDIO_EDAD_RIESGO"] = df_completo.apply(calcularFactor, axis=1)
df_completo

Unnamed: 0.1,FECHA_ARCHIVO,id,ENTIDAD,ORIGEN,SEXO,EMBARAZO,EDAD,RESULTADO,ASMA,OBESIDAD,HIPERTENSION,UCI,Unnamed: 0,TABAQUISMO,CARDIOVASCULAR,NUEVA_HIPERTENSION,RIESGO,FACTOR_CARDIO_EDAD_RIESGO
0,2020-04-12,9269,Sinaloa,2,2,97,74,2,2,1,1,97,0,2,2,2,4,0.026846
1,2020-04-12,33333,Jalisco,1,1,2,71,2,2,1,1,2,1,1,2,2,4,0.027972
2,2020-04-12,35483,Chihuahua,1,2,97,50,1,2,2,2,2,2,2,2,3,6,0.059406
3,2020-04-12,7062,Ciudad de Mexico,2,1,2,25,1,2,1,2,97,3,2,2,3,5,0.098039
4,2020-04-12,23745,Ciudad de Mexico,1,1,2,28,2,2,2,2,97,4,2,2,3,6,0.105263
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
263003,2020-06-03,7053721,Guerrero,2,1,2,53,1,2,1,2,2,263003,2,2,3,5,0.046729
263004,2020-06-03,7055429,Oaxaca,1,1,2,65,1,2,2,1,2,263004,2,2,2,5,0.038168
263005,2020-06-03,7043768,Hidalgo,2,2,97,71,1,2,2,1,2,263005,2,2,2,5,0.034965
263006,2020-06-03,7093277,Ciudad de Mexico,2,1,2,18,1,2,2,2,97,263006,2,2,3,6,0.162162
