<a href="https://colab.research.google.com/github/AleMarocho/Prueba/blob/main/Manejo_BD_ii.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Manejo de bases de datos para las ciencias sociales II


## Manipulando la base de datos

- Sorting
- Creación de columnas
- Casting
- Agregando datos
- Manejando valores missing


A continuación veremos cuáles son los métodos más comunes para transformar nuestra base de datos y obtener nueva información.

In [None]:
#importando pandas y leyendo nuestros datos

import pandas as pd


In [None]:
## Leyendo los archivos.
locacion_datos = "https://docs.google.com/spreadsheets/d/e/2PACX-1vQmJzJVRzCty6ohJIB28V3YpPnCjnOxgvYAWV5jvUZ78o6nco1K81xs1ijXlpsdw1GVYxHlijBq9pcH/pub?output=csv" # este es el mio
df = pd.read_csv(locacion_datos)

In [None]:
df.columns

Index(['IDHASH', 'COLEGIO', 'COLEGIO_DEPA', 'COLEGIO_PROV', 'COLEGIO_DIST',
       'COLEGIO_PAIS', 'COLEGIO_ANIO_EGRESO', 'ESPECIALIDAD', 'ANIO_POSTULA',
       'CICLO_POSTULA', 'DOMICILIO_DEPA', 'DOMICILIO_PROV', 'DOMICILIO_DIST',
       'ANIO_NACIMIENTO', 'NACIMIENTO_PAIS', 'NACIMIENTO_DEPA',
       'NACIMIENTO_PROV', 'NACIMIENTO_DIST', 'SEXO', 'CALIF_FINAL', 'INGRESO',
       'MODALIDAD', 'FECHA_CORTE'],
      dtype='object')

In [None]:
### Ordenar nuestra base de datos:


In [None]:
## una base de datos en no requiere que esté ordenada, pues la información mostrada es la misma,
# pero a veces es útil para visualizarla o para hacer operaciones.
df = df.sort_values('ANIO_NACIMIENTO', ascending = False) # por default, ascending es True.
# lo mismo, pero inplace:
#df.sort_values('ANIO_NACIMIENTO', ascending = False, inplace=True)

# ordenar por dos O más columnas:
df = df.sort_values(by=['ANIO_NACIMIENTO', 'NACIMIENTO_PAIS'])

#df = df.sort_values(by=['ANIO_NACIMIENTO', 'NACIMIENTO_PAIS'], ascending=[False, True])



### Creando columnas nuevas.

A continuación veremos varias maneras de crear variables nuevas, dependiendo de las circunstancias de los datos, así como nuestras necesidades/preferencias.



In [None]:
# La manera más sencilla:
# Crear una nueva columna a partir de la edad del postulante:
df['MAYOR_EDAD'] = df['ANIO_NACIMIENTO'] <= 2006

In [None]:
df["MAYOR_EDAD"] = df['ANIO_NACIMIENTO'] <=2006

Los siguentes métodos que utilizamos para filtrar datos también sirven para crear variables:


`.loc `

Podemos crear nuevas variables ubicando en el dataframe los valores que cumplen cierta condición y reemplazando por otras.

In [None]:
df['SEXO_'] = 0
df.loc[df['SEXO'] == 'FEMENINO', 'SEXO_'] = 1

In [None]:
df['SEXO']

Si queremos cambiar varias categorías a la vez, podemos utilizar  `isin()`, `replace` o `where`:

In [None]:
paises = ['ARGENTINA', 'COLOMBIA', 'VENEZUELA', 'CHILE', 'ESPAÑA',
       'ITALIA', 'EE.UU.', 'BOLIVIA', 'BRAZIL', 'JAPÓN', 'KOREA',
       'URUGUAY', 'ECUADOR',  'GUATEMALA', 'HONDURAS',
       'SUIZA', 'SIRIA', 'PARAGUAY', 'FRANCIA', 'MÉXICO'] ## df['NACIMIENTO_PAIS'].unique()

df["extranjero"] = 0
df.loc[df['NACIMIENTO_PAIS'].isin(), "extranjero"] = 1

TypeError: Series.isin() missing 1 required positional argument: 'values'

In [None]:
df['OTRO_SEXO'] = df['SEXO']
df.replace({'OTRO_SEXO': {'FEMENINO': 1, 'MASCULINO': 0}}, inplace=True)

  df.replace({'OTRO_SEXO': {'FEMENINO': 1, 'MASCULINO': 0}}, inplace=True)


In [None]:
# import numpy as np
# df['extranjero'] = np.where(df['NACIMIENTO_PAIS'].isin(paises), 1, 0)


In [None]:
df.columns

Utilizando `eval` podemos hacerlo con una sola expresión:


In [None]:
df['MAYOR_EDAD'] = df.eval('ANIO_NACIMIENTO <= 2006')
df['INGRESANTES_NOLIMA'] = df.eval("INGRESO == 'NO' & DOMICILIO_DEPA != 'LIMA'")



### Una forma más general: Utilizando apply y funciones lambda.

Recuerdan las funciones labmda que vimos en la clase pasada? Estas resultan muy útiles para hacer operaciones en columnas de un dataframe cuando la vectorización no es posible. A continuación veremos algunos ejemplos:

In [None]:
df["Colegio_"] = df["COLEGIO"].apply(lambda x : x.title())
df[["COLEGIO", "Colegio_"]]

Unnamed: 0,COLEGIO,Colegio_
3827,INCA GARCILASO DE LA VEGA,Inca Garcilaso De La Vega
1630,21632 JOSE CARLOS MARIATEGUI,21632 Jose Carlos Mariategui
3814,MX JOSE CARLOS MARIATEGUI,Mx Jose Carlos Mariategui
14279,GENES DE SAN MARTIN DE PORRES,Genes De San Martin De Porres
14802,LICEO NAVAL CONTRALMIRANTE MONTERO,Liceo Naval Contralmirante Montero
...,...,...
4114,SAN AGUSTIN,San Agustin
5982,0087 JOSE MARIA ARGUEDAS,0087 Jose Maria Arguedas
12356,2088 REPUBLICA FEDERAL DE ALEMANIA,2088 Republica Federal De Alemania
7013,PABLO APOSTOL,Pablo Apostol


In [None]:
def volver_a_titulo(x):
  '''
  x:str
  '''
  return x.title()

In [None]:
df['MAYOR_EDAD_'] = df['ANIO_NACIMIENTO'].apply(lambda x: x <= 2006)


In [None]:
#lo que hace en las observaciones es el año de nacimiento
#y determina si es mayor de edad o no

def mayor_edad(x):
    if x <= 2006:
        return True
    else:
        return False

df['MAYOR_EDAD_'] = df['ANIO_NACIMIENTO'].apply(lambda x: mayor_edad(x))

También podemos crear variables categóricas en base a variables contínuas con `cut`:

In [None]:
categ_labels = ['cat_1', 'cat_2', 'cat_3', 'cat_4']
categ_bins = [-1, 5, 10, 15, 20.01]

In [None]:
df['cat_calificacion'] = pd.cut(df['CALIF_FINAL'],
                              bins = categ_bins, labels = categ_labels)

In [None]:
df["cat_calificacion"].value.content

### Casting: Cambiando tipos de datos:
Hay veces cuando necetaremos cambiar el tipo de dato de una columna.    

- Por ejemplo, cuando el csv fue leido y una columna que debería ser numérica,  es leída como string.  
- Otra situación se da cuando queremos optimizar el uso de memoria de nuestra base de datos, y por ejemplo, queremos reducir el número de decimales que el sistema guarda.  
- Luego, cuando concatenamos bases de datos, los tipos entre uno y otro pueden no coincidir, y necesitaremos cambiarlos para poder hacer operaciones.


In [None]:
df['ANIO_NACIMIENTO'] = df['ANIO_NACIMIENTO'].astype('str')

# Cuando leemos los archivos, existe un argumento que se llama dtype, que nos permite especificar el tipo de dato de cada columna.


## Agregando datos


Para hacer agregaciones por columnas: ```axis = 0``` ó ```axis = 'index' ```
Para hacer agregaciones por filas: ```axis = 1``` ó ```axis = 'columns' ```

(dato curioso: El axis 0 en realidad se refiere a las filas, pero lo invocamos para obtener datos agregados por columnas porque es como lo mantenemos "fijo". Lo mismo para hacer operaciones por filas).

| Función     | Descripción                                               |
|-------------|-----------------------------------------------------------|
| `mean`      | Calcula el promedio de los valores.                       |
| `median`    | Encuentra la mediana de los valores.                      |
| `sum`       | Suma todos los valores.                                   |
| `min`       | Encuentra el valor mínimo.                                |
| `max`       | Encuentra el valor máximo.                                |
| `quantile`  | Calcula el cuantil especificado de los valores.           |
| `std`       | Calcula la desviación estándar de los valores.            |
| `var`       | Calcula la varianza de los valores.                       |
| `count`     | Cuenta el número de valores no nulos.                     |


In [None]:
pbi = pd.read_csv("https://docs.google.com/spreadsheets/d/e/2PACX-1vQ3aCe3RVACo1F1Bw6kgy9Uvw0bKqmQWW8CPuh_KGbYb7GrQMnzRIJ1v1b7X78m4iWUUj0vPEWOTDsY/pub?output=csv")

departamentos = ['Amazonas', 'Áncash', 'Apurímac', 'Arequipa', 'Ayacucho',
       'Cajamarca', 'Cusco', 'Huancavelica', 'Huánuco', 'Ica', 'Junín',
       'La Libertad', 'Lambayeque', 'Lima', 'Prov. Const. del Callao',
       'Región Lima', 'Provincia de Lima', 'Loreto', 'Madre de Dios',
       'Moquegua', 'Pasco', 'Piura', 'Puno', 'San Martín', 'Tacna', 'Tumbes',
       'Ucayali']

In [None]:
pbi.columns

Index(['Anio', 'Amazonas', 'Áncash', 'Apurímac', 'Arequipa', 'Ayacucho',
       'Cajamarca', 'Cusco', 'Huancavelica', 'Huánuco', 'Ica', 'Junín',
       'La Libertad', 'Lambayeque', 'Lima', 'Prov. Const. del Callao',
       'Región Lima', 'Provincia de Lima', 'Loreto', 'Madre de Dios',
       'Moquegua', 'Pasco', 'Piura', 'Puno', 'San Martín', 'Tacna', 'Tumbes',
       'Ucayali'],
      dtype='object')

In [None]:
## Hallando la suma total de pbi departamental
pbi['total'] = pbi[departamentos].sum(axis=1)

## Hallando el promedio de pbi departamental de los últimos años:

pbi[departamentos].mean() # axis = 0 es por default. b

In [None]:
pbi['total'] = pbi[departamentos].sum(axis=1)
pbi

Unnamed: 0,Anio,Amazonas,Áncash,Apurímac,Arequipa,Ayacucho,Cajamarca,Cusco,Huancavelica,Huánuco,...,Madre de Dios,Moquegua,Pasco,Piura,Puno,San Martín,Tacna,Tumbes,Ucayali,total
0,2007,1778775,15672771,1824181,16991831,2975676,8159499,10913725,2475279,3200861,...,1864543,7525100,5486459,12651720,5888474,3266254,5143137,1637185,3054659,429428525
1,2008,1930947,16854588,1688564,18885807,3401175,9319769,11663686,2613850,3464132,...,1902177,8663619,5416732,13580502,6328455,3598432,5016741,1902059,3212843,467206837
2,2009,2058318,16400826,1623801,19032479,3750401,10050467,13631820,2696095,3499798,...,2033411,8436303,5040946,13998851,6587873,3740600,4823192,2082047,3243767,471433790
3,2010,2210682,16013215,1765744,20158733,3922514,10140905,15405459,2817536,3739082,...,2229180,8457008,4702403,15106528,6980479,4034361,5338879,2307874,3351315,512037914
4,2011,2287107,16155687,1869417,21038813,4111349,10595497,17384466,2909215,3955589,...,2454999,7785269,4641887,16366999,7384505,4245537,5466509,2168906,3548168,548673683
5,2012,2551601,17666947,2110908,22033542,4482971,11270583,17711332,3143661,4380310,...,1950139,7756800,4880072,17066135,7734458,4752177,5526840,2440755,3882453,581030275
6,2013,2682266,18478843,2342674,22629103,4906299,11086928,20708699,3174927,4642728,...,2240082,8598669,4885819,17746782,8294320,4828116,5781849,2491026,3947464,613934474
7,2014,2824603,16028265,2437434,22773308,4879476,10855588,20723581,3281748,4799787,...,1923155,8371348,5046668,18750443,8487313,5173301,6094038,2607186,3957775,631216479
8,2015,2782128,17584621,2630345,23524592,5162331,10798612,21071852,3265820,5114983,...,2346810,8693747,5211406,18866671,8519702,5466266,6598403,2540855,4163474,652658518
9,2016,2784366,18365696,6343065,29623112,5177917,10581305,21898270,3212948,5345445,...,2663699,8635514,5329324,18924869,9075999,5588107,6506248,2507255,4176645,675963828


In [None]:
pbi[departamentos].mean()

## Utilizando el groupby:

El groupby nos va a permitir agrupar los datos según una columna y aplicar una función a cada grupo. Es conveniente para cuando querramos obtener datos a un nivel más agregado.

In [None]:
df.columns

In [None]:
df.groupby("ESPECIALIDAD")["CALIF_FINAL"].mean()

Unnamed: 0_level_0,CALIF_FINAL
ESPECIALIDAD,Unnamed: 1_level_1
ARQUITECTURA,8.001203
CIENCIA DE LA COMPUTACIÓN,7.997419
FÍSICA,8.79765
INGENIERIA AEROESPACIAL,8.132378
INGENIERÍA AMBIENTAL,7.409306
INGENIERÍA CIVIL,7.840262
INGENIERÍA DE CIBERSEGURIDAD,8.480592
INGENIERÍA DE HIGIENE Y SEGURIDAD INDUSTRIAL,7.306458
INGENIERÍA DE MINAS,7.163821
INGENIERÍA DE PETRÓLEO Y GAS NATURAL,7.195723


In [None]:
df.groupby('ESPECIALIDAD')['CALIF_FINAL'].mean()
#.sort_values(ascending = False)

Unnamed: 0_level_0,CALIF_FINAL
ESPECIALIDAD,Unnamed: 1_level_1
ARQUITECTURA,8.001203
CIENCIA DE LA COMPUTACIÓN,7.997419
FÍSICA,8.79765
INGENIERIA AEROESPACIAL,8.132378
INGENIERÍA AMBIENTAL,7.409306
INGENIERÍA CIVIL,7.840262
INGENIERÍA DE CIBERSEGURIDAD,8.480592
INGENIERÍA DE HIGIENE Y SEGURIDAD INDUSTRIAL,7.306458
INGENIERÍA DE MINAS,7.163821
INGENIERÍA DE PETRÓLEO Y GAS NATURAL,7.195723


In [None]:
res = df.groupby(['ESPECIALIDAD', 'INGRESO'])['CALIF_FINAL'].mean()
## qué pasa si colocas un .reset_index() al final?


In [None]:
res.reset_index().columns

Index(['ESPECIALIDAD', 'INGRESO', 'CALIF_FINAL'], dtype='object')

In [None]:
df.groupby(["ESPECIALIDAD"]).agg(
    {"CALIF_FINAL":["mean", "max","min"],
     "ANIO_NACIMIENTO" : ["mean", "max","min"]}
)

Unnamed: 0_level_0,CALIF_FINAL,CALIF_FINAL,CALIF_FINAL,ANIO_NACIMIENTO,ANIO_NACIMIENTO,ANIO_NACIMIENTO
Unnamed: 0_level_1,mean,max,min,mean,max,min
ESPECIALIDAD,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
ARQUITECTURA,8.001203,16.955,0.0,2005.823398,2009,1986
CIENCIA DE LA COMPUTACIÓN,7.997419,14.951,0.0,2005.273408,2008,1978
FÍSICA,8.79765,17.41,1.366,2005.5,2008,1988
INGENIERIA AEROESPACIAL,8.132378,16.032,0.0,2005.673307,2008,1991
INGENIERÍA AMBIENTAL,7.409306,17.005,0.0,2005.639118,2010,1996
INGENIERÍA CIVIL,7.840262,17.36,0.0,2006.069821,2010,1965
INGENIERÍA DE CIBERSEGURIDAD,8.480592,16.52,0.0,2005.871795,2008,1992
INGENIERÍA DE HIGIENE Y SEGURIDAD INDUSTRIAL,7.306458,12.576,0.033,2004.975904,2008,1994
INGENIERÍA DE MINAS,7.163821,15.692,0.0,2005.811733,2010,1984
INGENIERÍA DE PETRÓLEO Y GAS NATURAL,7.195723,13.16,0.0,2004.923077,2008,1984


###  Una forma generalizada de hacer groupbys:

In [None]:

## aquí utilizamos el método agg para aplicar varias funciones a la vez.
nueva_agregacion =df.groupby(['ESPECIALIDAD']).agg(
{'CALIF_FINAL': ['mean', 'max','min'],
 'ANIO_NACIMIENTO': ['min', 'median']}
)



In [None]:
## los nombres de las columnas son una lista de strings, que al tener varios niveles, tendrán un multiIndex.
# En este curso no lidiaaremos con  multiIndex, así que te propongo la siguiente solución:

nueva_agregacion.columns = [''.join(col).strip() for col in nueva_agregacion.columns.values]


In [None]:
## Otra forma de hacerlo

new_col = []
for col in nueva_agregacion.columns.values:
    a = ''.join(col).strip()
    new_col.append(a)
nueva_agregacion.columns = new_col


In [None]:
# Otra forma de hacerlo
# df.groupby(['ESPECIALIDAD', 'INGRESO']).agg(nueva_var =  ('CALIF_FINAL', 'mean')).reset_index()

## resumiendo datos con pivot_table()
Pandas tiene un método que nos permite hacer tablas dinámicas (a lo Excel) para resumir información.



In [None]:
pd.pivot_table(df, values = 'CALIF_FINAL', #variable con los valores que vamos a resumir
                index = 'ESPECIALIDAD', # filas
                  columns = 'INGRESO', # columnas
                    aggfunc = 'mean' # función de agregación
                    )

In [None]:
pd.pivot_table(df,
                values = ['CALIF_FINAL', 'ANIO_NACIMIENTO'],
                index = 'ESPECIALIDAD',
                columns = 'INGRESO',
                aggfunc = {'CALIF_FINAL': ['mean', 'median'],
                            'ANIO_NACIMIENTO': 'median'})

In [None]:
### Formatos Long-Wide:



In [None]:
pbi.melt(id_vars="Anio") ## En caso tuviesemos más de una variable

In [None]:
df_wide = pd.pivot_table(df, values = 'CALIF_FINAL', index = 'ESPECIALIDAD', columns = 'INGRESO', aggfunc = 'mean').reset_index()
df_wide.melt(id_vars = 'ESPECIALIDAD', value_vars = ['NO', 'SI'])

### Manejo de datos faltantes:
Los datos faltantes pueden suceder por varias razones:
-  Cuando no se necesita registrar los datos de dicha observación (por ejemplo, nivel educativo para menores de 3 años).  
-  Sin embargo, esto puede afectar nuestro análisis si son errores en el levantamiento de la información.    
    - ejemplo de variables sensibles de levantamiento.
    - errores de levantamiento de datos.
    
Su identifcación y tratamiento es importante.


In [None]:
## IDentificando datos faltantes:
df.isna().sum() # nos da la cantidad de datos faltantes por columna.

In [None]:
## Observando datos faltantes de un subconjunto de columnas:
df[['COLEGIO_DEPA', 'NACIMIENTO_DEPA']].isna().sum()

df = df.fillna(0) # reemplaza los datos faltantes por 0.
#
df[['COLEGIO_DEPA', 'NACIMIENTO_DEPA']].fillna('No especificado')

# Otros métodos: notna(), dropna()
