# Pandas (Parte 2)

En la última sesión vimos una introducción a Pandas. 
Las cosas que aprendimos a hacer fueron:

- Crear y leer una base de datos. 
- Realizar los primeros análisis descriptivos de una base de datos. 
- Seleccionar información (por columnas  y filas). 
- Tabular información 
- Filtrar información 

### Ordenando valores 

A veces queremos ordenar nuestro dataframe de acuerdo a criterios específicos

In [1]:
import pandas as pd

In [2]:
locacion_datos = "https://otorongo.club/2021/json/ingresos/"

cong = pd.read_json(locacion_datos)

In [17]:

## Ordenando de menor a mayor
cong.sort_values("total_ingreso", inplace = True)
#cong.head(4)

In [16]:
## Ordenando de mayor a menor
cong.sort_values("total_ingreso",ascending = False,  inplace = True)
#cong.head(3)

In [15]:
## Ordenando con más de un criterio. 
cong.sort_values(['partido', 'total_ingreso'],ascending = False,  inplace = True)
#cong.head(10)

## Limpieza de datos (parte 1)

### Cambiando de nombre a nuestras columnas
Muchas veces necesitamos cambiar de nombre a nuestras columnas. Podemos hacerlo directamente: 

In [45]:
cong2 = cong.copy(deep = True)

In [19]:
cong2.columns

Index(['nombre', 'dni', 'partido', 'total_ingreso', 'ingreso_publico',
       'ingreso_privado', 'renta_publico', 'renta_privado',
       'otro_ingreso_publico', 'otro_ingreso_privado'],
      dtype='object')

In [25]:
cong2.columns = ['nombre_congresista', "dni_cong"] + list(cong2.columns[2:]) ## Esta lista al final 

Otra forma de cambiar nombres es definir un diccionario donde se da el ```nombre_viejo: nombre_nuevo ```

In [29]:
nuevos_nombres = {'nombre_congresista': 'nombre', 'dni_cong' : 'dni'}

In [32]:
cong2.rename(columns = nuevos_nombres, inplace = True)

### Cambiando el valor de las variables
Una forma práctica de cambiar los valores de nuestras variables, es usar un diccionario: 

In [38]:
cong2['partido_nuevo'] = cong2['partido']

cong2.replace({'partido_nuevo': {'ALIANZA PARA EL PROGRESO': 'FUERZA POPULAR',
                                 'JUNTOS POR EL PERU': 'PARTIDO POLITICO NACIONAL PERU LIBRE'}}, inplace = True)

También podemos usar .loc para reemplazar valores:

In [43]:
cong2.loc[cong2['partido'] == 'ALIANZA PARA EL PROGRESO', 'partido'] = 'FUERZA POPULAR'

Tambien podemos usar el comando ``` isin``` :

In [48]:
cong2['nueva_coalicion'] = 0
cong2.loc[cong2["partido"].isin(['ALIANZA PARA EL PROGRESO',
                                 'FUERZA POPULAR', 'VICTORIA NACIONAL' ]), "nueva_coalicion"] = 1

### Cómo crear variables nuevas

En este caso estoy utilizando indistintamente "variable" de "columna"

In [63]:
cong['nueva columna'] = True
cong.head(3)

Unnamed: 0,nombre,dni,partido,total_ingreso,ingreso_publico,ingreso_privado,renta_publico,renta_privado,otro_ingreso_publico,otro_ingreso_privado,new_ingreso_mp,new_ingreso_mensual,nueva columna
3159,SALAS CUADROS JORGE AUGUSTO,239996,ACCION POPULAR,0,0,0,0,0,0,0,0.0,0.0,True
2892,GUEVARA VERGARA CLODOMIRO,41690329,RENACIMIENTO UNIDO NACIONAL,0,0,0,0,0,0,0,0.0,0.0,True
3161,HUACRE MEZA BRENDA JEANETTE,45074945,RENACIMIENTO UNIDO NACIONAL,0,0,0,0,0,0,0,0.0,0.0,True


In [None]:
cong['ingreso mensual'] = cong['total_ingreso'] / 12
cong['ingreso_menos_p'] = (cong['total_ingreso'] - cong['ingreso_publico'])/ 12

Otra forma es utilizando el ```eval```: 

In [61]:
cong['new_ingreso_mp'] = cong.eval('(total_ingreso-ingreso_publico)/12')
cong['new_ingreso_mensual'] = cong.eval('total_ingreso/12')


Podemos crear variables categóricas en base a variables continuas con ```cut```: 

In [None]:
categ_labels = ['cat_1', 'cat_2', 'cat_3', 'cat_4']
categ_bins = [-1, 10000, 50000, 100000, 200000000]

In [None]:
cong2['cat_ingreso'] = pd.cut(cong2['total_ingreso'],
                              bins = categ_bins, labels = categ_labels)

Tarea: Crear cuantiles (qcut)

### Agregar datos

Muchas veces vamos a querer una agregación de los datos que nos resuma algunas de las variables en sus medidas de tendencia central, o las que nos interese. 

La forma más generalde agregar los datos es la siguiente: 
    

In [90]:
cong.mean()

dni                     2.711041e+07
total_ingreso           8.834971e+04
ingreso_publico         1.637062e+04
ingreso_privado         1.901372e+04
renta_publico           3.630140e+03
renta_privado           1.280850e+04
otro_ingreso_publico    1.278966e+03
otro_ingreso_privado    3.524777e+04
new_ingreso_mp          5.998258e+03
new_ingreso_mensual     7.362476e+03
nueva columna           1.000000e+00
dtype: float64

In [92]:

cong['total_ingreso'].mean()

88349.71441495778

In [94]:
cong[cong['partido'] == "PARTIDO MORADO"]['total_ingreso'].mean()

69270.45505617978

En general, podemos hacer todas estas agregaciones: 

* `mean` - promedio
* `median` - mediana
* `sum` - suma
* `min` - mínimo
* `max` - máximo
* `quantile` - nos da el cuantil que le pedimos
* `std` - desviación standar
* `var` - varianza
* `count` - produce el número de valores no missing
* `describe` - nos da varias de las medidas de arriba


### OJO: Podemos hacer agregaciones de ó columnas ó filas. 

Para hacer agregaciones por columnas: ```axis = 0``` ó ```axis = 'index' ```
Para hacer agregaciones por filas: ```axis = 1``` ó ```axis = 'columns' ```

In [97]:
## Sumando todos los ingresos por congresista
cong['otro_total'] = cong[['ingreso_publico',
       'ingreso_privado', 'renta_publico', 'renta_privado',
       'otro_ingreso_publico', 'otro_ingreso_privado']].sum(axis = 1)

In [101]:
cong[['ingreso_publico',
       'ingreso_privado', 'renta_publico', 'renta_privado',
       'otro_ingreso_publico', 'otro_ingreso_privado']].sum(axis = 0)

ingreso_publico          54284990
ingreso_privado          63049488
renta_publico            12037545
renta_privado            42472988
otro_ingreso_publico      4241050
otro_ingreso_privado    116881592
dtype: int64

In [76]:
cong[['total_ingreso', 'partido']].groupby('partido').mean()

Unnamed: 0_level_0,total_ingreso
partido,Unnamed: 1_level_1
ACCION POPULAR,59437.463277
ALIANZA PARA EL PROGRESO,124155.849162
AVANZA PAIS - PARTIDO DE INTEGRACION SOCIAL,80444.471338
DEMOCRACIA DIRECTA,25121.864407
"EL FRENTE AMPLIO POR JUSTICIA, VIDA Y LIBERTAD",28326.472393
FRENTE POPULAR AGRICOLA FIA DEL PERU - FREPAP,19786.235955
FUERZA POPULAR,94359.858757
JUNTOS POR EL PERU,48673.322034
PARTIDO APRISTA PERUANO,122434.052632
PARTIDO DEMOCRATICO SOMOS PERU,57238.775281


In [83]:
(cong[['total_ingreso', 'partido']].groupby('partido').max().reset_index())

#.sort_values('total_ingreso')

Unnamed: 0,partido,total_ingreso
0,ACCION POPULAR,605574
1,ALIANZA PARA EL PROGRESO,9571448
2,AVANZA PAIS - PARTIDO DE INTEGRACION SOCIAL,1592210
3,DEMOCRACIA DIRECTA,460922
4,"EL FRENTE AMPLIO POR JUSTICIA, VIDA Y LIBERTAD",278606
5,FRENTE POPULAR AGRICOLA FIA DEL PERU - FREPAP,102000
6,FUERZA POPULAR,2750000
7,JUNTOS POR EL PERU,336393
8,PARTIDO APRISTA PERUANO,970021
9,PARTIDO DEMOCRATICO SOMOS PERU,567989


In [None]:
Si bien hay varias formas, la más general es la siguiente:

In [64]:
nueva_agregacion = cong.groupby(['partido']).agg(
{'total_ingreso': ['mean', 'max'], 
 'ingreso_privado': ['mean', 'median']}
)

In [65]:
nueva_agregacion

Unnamed: 0_level_0,total_ingreso,total_ingreso,ingreso_privado,ingreso_privado
Unnamed: 0_level_1,mean,max,mean,median
partido,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
ACCION POPULAR,59437.463277,605574,12390.20339,0
ALIANZA PARA EL PROGRESO,124155.849162,9571448,32321.284916,0
AVANZA PAIS - PARTIDO DE INTEGRACION SOCIAL,80444.471338,1592210,15340.0,0
DEMOCRACIA DIRECTA,25121.864407,460922,7925.909605,0
"EL FRENTE AMPLIO POR JUSTICIA, VIDA Y LIBERTAD",28326.472393,278606,4514.509202,0
FRENTE POPULAR AGRICOLA FIA DEL PERU - FREPAP,19786.235955,102000,1044.376404,0
FUERZA POPULAR,94359.858757,2750000,16421.644068,0
JUNTOS POR EL PERU,48673.322034,336393,9023.20904,0
PARTIDO APRISTA PERUANO,122434.052632,970021,93405.052632,17638
PARTIDO DEMOCRATICO SOMOS PERU,57238.775281,567989,7097.713483,0


In [66]:
## El reset index es importante!
nueva_agregacion = cong.groupby(['partido']).agg(
{'total_ingreso': ['mean', 'max'], 
 'ingreso_privado': ['mean', 'median']}
).reset_index()



In [69]:
nueva_agregacion.columns

MultiIndex([(        'partido',       ''),
            (  'total_ingreso',   'mean'),
            (  'total_ingreso',    'max'),
            ('ingreso_privado',   'mean'),
            ('ingreso_privado', 'median')],
           )

In [None]:
nueva_agregacion.columns = [''.join(col).strip() for col in nueva_agregacion.columns.values]

Una nueva forma de ordenar nuestro código es ponerlo entre paréntesis y separarlo por "puntitos"

In [84]:
nueva_agregacion = (cong
                    .groupby(['partido'])
                    .agg(
                    {'total_ingreso': ['mean', 'max'], 
                     'ingreso_privado': ['mean', 'median']}
                   ).reset_index())

### Juntar datos (merge)

A veces tenemos los datos que nos interesan, esparcidos en diferentes dataframes.   
1er paso para hacer la unión de datos: Identificar el identificador único!



In [75]:
cong_1 = cong[['dni', 'total_ingreso']]

cong_2 = cong[['dni', 'partido']]


La sintaxis más general de un merge es la siguiente: 

``` python
pd.merge(left = left_df,
         right=right_df,
         left_on=colname,
         right_on=colname,
         how=mergetype)

```

El merge_type (o tipo de merge puede ser):

- left: quedan todas las observaciones (por keys) de las mano izquierda
- right: quedan todas las observaciones (por keys) de la mano derecha
- outer: es la unión de los keys de ambas bases
- inner: es la intersección de los keys de ambas bases. 


In [85]:
resultado_merge = pd.merge(cong_1,
                     cong_2,
                    left_on = 'dni',
                    right_on = 'dni',
                    how = 'inner')
resultado_merge

Unnamed: 0,dni,total_ingreso,partido
0,239996,0,ACCION POPULAR
1,41690329,0,RENACIMIENTO UNIDO NACIONAL
2,45074945,0,RENACIMIENTO UNIDO NACIONAL
3,41738609,0,RENACIMIENTO UNIDO NACIONAL
4,42818690,0,RENACIMIENTO UNIDO NACIONAL
...,...,...,...
3311,19873483,7740000,RENACIMIENTO UNIDO NACIONAL
3312,17903382,9571448,ALIANZA PARA EL PROGRESO
3313,7818712,10998927,RENOVACION POPULAR
3314,7246887,12428083,PODEMOS PERU


In [86]:
solo_fp = cong_2.loc[cong2['partido'] == 'FUERZA POPULAR', :]

In [88]:
resultado_merge_fp = pd.merge(cong_1,
                     solo_fp,
                    left_on = 'dni',
                    right_on = 'dni',
                    how = 'inner')
resultado_merge_fp

Unnamed: 0,dni,total_ingreso,partido
0,508595,0,FUERZA POPULAR
1,41221397,0,FUERZA POPULAR
2,46994878,0,FUERZA POPULAR
3,42344527,0,FUERZA POPULAR
4,7721458,0,FUERZA POPULAR
...,...,...,...
172,8232920,444400,FUERZA POPULAR
173,508734,500000,FUERZA POPULAR
174,8803658,515605,FUERZA POPULAR
175,17896798,884784,FUERZA POPULAR
