<img src="img/Marca-ITBA-Color-ALTA.png" width="250">

# Master en Management & Analytics

## Programación para el Análisis de Datos

## Clase 3 parte 1 - Pandas - Transformación de datos

#### Referencias y bibliografía de consulta:

- Python for Data Analysis by Wes McKinney (O’Reilly) 2018 - capítulos 5 y 7

- https://pandas.pydata.org/

### 1) Métodos de transformación de datos

La clase anterior hicimos una introducción al módulo `pandas` y presentamos dos tipos de objetos que utilizaremos a lo largo de todo el curso: `pandas.Series` y `pandas.DataFrame`.

En este módulo vamos a aplicar funciones a las estructuras de datos de `Pandas` para realizar transformaciones, limpiar los datos y obtener valores agregados (sumas, medias, etc.). 

En particular, aprenderemos a realizar estas operaciones tanto utilizando métodos ya definidos de los objetos `Series`y `DataFrame`, así como a utilizar los métodos `apply()`, `applymap()` y `map()`, para aplicar diferentes tipos de funciones. Veremos también como aplicar estas funciones por fila, columna, por elemento o a todo el dataset. 

Comenzamos realizando una importación de los módulos a utilizar e inicializando un `DataFrame` que utilizaremos para múltiples ejemplos.

In [2]:
import numpy as np
import pandas as pd

In [3]:
np.random.seed(2)

df1 = pd.DataFrame(np.random.randint(100, size=(4, 3))-50, columns=list('bde'),
                     index=['Utah', 'Ohio', 'Texas', 'Oregon'])
df1

Unnamed: 0,b,d,e
Utah,-10,-35,22
Ohio,-28,-7,32
Texas,25,-43,-16
Oregon,-1,45,25


### 1.1) Universal functions

Cómo vimos en la clase pasada, `pandas` se construye a partir de `numpy`. Por este motivo, es posible utilizar las funciones universales (`ufuncs`) de `numpy` en `DataFrames` y `Series`. Estas funciones permiten aplicar una función a todos los elementos del objeto.
Estas funciones utilizan `Broadcasting` en las situaciones donde los elementos no coinciden.

In [4]:
# Obtenemos el valor absoluto de cada elemento de df1:
np.abs(df1)

Unnamed: 0,b,d,e
Utah,10,35,22
Ohio,28,7,32
Texas,25,43,16
Oregon,1,45,25


In [5]:
# Obtenemos el negativo de cada elemento de df1:
np.negative(df1)

Unnamed: 0,b,d,e
Utah,10,35,-22
Ohio,28,7,-32
Texas,-25,43,16
Oregon,1,-45,-25


In [6]:
np.power(df1,2)

Unnamed: 0,b,d,e
Utah,100,1225,484
Ohio,784,49,1024
Texas,625,1849,256
Oregon,1,2025,625


In [7]:
print(df1)
print(np.power(df1, [1,2,3]))
print(np.power(35, [2]))

         b   d   e
Utah   -10 -35  22
Ohio   -28  -7  32
Texas   25 -43 -16
Oregon  -1  45  25
         b     d      e
Utah   -10  1225  10648
Ohio   -28    49  32768
Texas   25  1849  -4096
Oregon  -1  2025  15625
[1225]


In [8]:
print(df1)
print(np.square(df1))

         b   d   e
Utah   -10 -35  22
Ohio   -28  -7  32
Texas   25 -43 -16
Oregon  -1  45  25
          b     d     e
Utah    100  1225   484
Ohio    784    49  1024
Texas   625  1849   256
Oregon    1  2025   625


Para mas información se puede consultar la [documentación](https://numpy.org/doc/stable/reference/ufuncs.html)


Las `ufunc` implementan una gran cantidad de funciones que son ampliamente utilizadas. Sin embargo, puede ser necesario tener una mayor versatilidad. En estos casos se puede utilizar los métodos `apply()`, `applymap()` o `map()`. 

### 1.2) apply, applymap, map

`Pandas` cuenta con un conjunto de métodos que permiten operar sobre los elementos de un objeto `DataFrame` o `Series`.

Para aplicar la lógica deseada, podemos optar tanto por definir funciones con nombre como por utilizar expresiones lambda que luego no pueden reutilizarse.
    
1)  `pd.DataFrame.apply`: opera sobre filas o columnas completas de una instancia de `DataFrame`.

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.apply.html
    
2)  `pd.DataFrame.applymap`: opera sobre cada uno de los elementos (celdas) de una instancia de `DataFrame`.

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.applymap.html
    
3)  `pd.Series.apply`: opera sobre cada uno de los elementos de la instancia de `Series`. 
    
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.apply.html
    
4)  `pd.Series.map`: mapea cada elemento de una serie a otro obtenido mediante otra serie, diccionario o función.
    
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.map.html


El método apply de `Pandas` permite realizar operaciones sobre los objetos `DataFrame` tanto fila por fila como columna por columna.

### Apply sobre un dataframe

Comencemos analizando el método `apply()` sobre `DataFrames`.

In [9]:
df = pd.DataFrame({'C1': [1,2,3,4], 
                   'C2': [2,4,6,8],
                   'C3': [3,6,9,12]
                  }, 
                  index=['f1', 'f2', 'f3', 'f4'])

display(df)

Unnamed: 0,C1,C2,C3
f1,1,2,3
f2,2,4,6
f3,3,6,9
f4,4,8,12


Vamos a crear una función llamada `make_sum()`:

In [10]:
def make_sum(x):
    
    print(f"Type: {type(x)} - Name: {x.name}")
    
    result = 0
    
    for i in x:
        result += i 
    
    print('result:',result)
    
    return result

In [11]:
output = df.apply(make_sum, axis=0)
output
#sobre una serie

Type: <class 'pandas.core.series.Series'> - Name: C1
result: 10
Type: <class 'pandas.core.series.Series'> - Name: C2
result: 20
Type: <class 'pandas.core.series.Series'> - Name: C3
result: 30


C1    10
C2    20
C3    30
dtype: int64

In [12]:
df.loc['f5'] = output
df

Unnamed: 0,C1,C2,C3
f1,1,2,3
f2,2,4,6
f3,3,6,9
f4,4,8,12
f5,10,20,30


En la siguiente imagen se puede ver un esquema de funcionamiento de `apply` con `axis=0` para aplicar la función sobre cada columna.
<img src="img/apply_df_col.png" width="200">


In [13]:
df['C4'] = df.apply(make_sum, axis=1)
df

Type: <class 'pandas.core.series.Series'> - Name: f1
result: 6
Type: <class 'pandas.core.series.Series'> - Name: f2
result: 12
Type: <class 'pandas.core.series.Series'> - Name: f3
result: 18
Type: <class 'pandas.core.series.Series'> - Name: f4
result: 24
Type: <class 'pandas.core.series.Series'> - Name: f5
result: 60


Unnamed: 0,C1,C2,C3,C4
f1,1,2,3,6
f2,2,4,6,12
f3,3,6,9,18
f4,4,8,12,24
f5,10,20,30,60


En la siguiente imagen se puede ver un esquema de funcionamiento de `apply` con `axis=1` para aplicar la función sobre cada fila.
<img src="img/apply_df_row.png" width="200">


### Apply sobre una serie

Trabajemos primero sobre df1 para obtener un df2 en el cual el index ahora es una columna.

In [14]:
df2 = df1.reset_index()
df2.rename(columns={'index':'state'}, inplace=True)
display(df2)

Unnamed: 0,state,b,d,e
0,Utah,-10,-35,22
1,Ohio,-28,-7,32
2,Texas,25,-43,-16
3,Oregon,-1,45,25


Veamos cual es el resultado de aplicar el método `lower()` a un string:

In [15]:
a = 'Hola'
print(a.lower())

hola


Usemos el método `apply()` para aplicar el método `lower()` a todos los elementos de una `Serie`:

In [16]:
def lower_case(x):
    return x.lower()

df2['state'] = df2['state'].apply(lower_case)
# (?) mantiene la vectorización, es más rápido

In [17]:
df2

Unnamed: 0,state,b,d,e
0,utah,-10,-35,22
1,ohio,-28,-7,32
2,texas,25,-43,-16
3,oregon,-1,45,25


Recuerden que las `Series` de `Pandas` tienen el método .str que les permite acceder a funciones vectorizadas de texto, por lo que sería más eficiente realizar lo siguiente:

In [18]:
df2['state'].str.lower()

0      utah
1      ohio
2     texas
3    oregon
Name: state, dtype: object

La implementación de lower_case con el método apply es a fines demostrativos

### Applymap

Con `applymap()` operamos sobre cada uno de los elementos del `DataFrame`.

In [19]:
df1

Unnamed: 0,b,d,e
Utah,-10,-35,22
Ohio,-28,-7,32
Texas,25,-43,-16
Oregon,-1,45,25


In [20]:
def is_even(x):
    if x % 2 == 0:
        return True
    else:
        return False

display(df1.applymap(is_even))
display(df1["b"].apply(is_even))
# applymap es para df, apply para series

Unnamed: 0,b,d,e
Utah,True,False,True
Ohio,True,False,True
Texas,False,False,True
Oregon,False,False,False


Utah       True
Ohio       True
Texas     False
Oregon    False
Name: b, dtype: bool

### Map

Volvemos a poner en mayúsculas los nombres de los estados en df2. 

In [21]:
df2['state'] = df2['state'].str.title()
display(df2)

Unnamed: 0,state,b,d,e
0,Utah,-10,-35,22
1,Ohio,-28,-7,32
2,Texas,25,-43,-16
3,Oregon,-1,45,25


In [22]:
map_states = {'Utah': 'ut', 'Ohio': 'oh', 'Texas': 'tx', 'California': 'ca'}

df2['state_short'] = df2['state'].map(map_states)
display(df2)

Unnamed: 0,state,b,d,e,state_short
0,Utah,-10,-35,22,ut
1,Ohio,-28,-7,32,oh
2,Texas,25,-43,-16,tx
3,Oregon,-1,45,25,


### 1.3) Funciones lambda

Las funciones `apply()` suelen ser utilizadas en conjunto con funciones anónimas: `lambda`.
Estas funciones son muy comunes en paradigmas de programación funcional.
Es práctico utilizar este tipo de funciones en situaciones en las que no se repitirá el uso de la función o cuando la función que se necesita aplicar, varia.

La sintaxis de este tipo de funciones es muy simple
``` python
lambda args: oneLineFunc
```
Definimos una función `lamdba` que calcula la diferencia entre el máximo y el mínimo de una `Series`. Se invoca una vez para cada columna de **df1**. El resultado es una `Series`que tiene como `index` las columnas del `DataFrame` y como values el resultado de la operación definida. 

In [23]:
df
# df["texto"] = ["1","2","3","4","5"]

Unnamed: 0,C1,C2,C3,C4
f1,1,2,3,6
f2,2,4,6,12
f3,3,6,9,18
f4,4,8,12,24
f5,10,20,30,60


In [24]:
df.apply(lambda x: x.max() - x.min(), axis=0)

C1     9
C2    18
C3    27
C4    54
dtype: int64

In [25]:
df.apply(lambda x: x.max() - x.min(), axis=1)

f1     5
f2    10
f3    15
f4    20
f5    50
dtype: int64

Vamos a aplicar ahora el método `apply()` a la columna C4:

In [26]:
df['C5'] = df['C4'].apply(lambda x: x*2)
df

Unnamed: 0,C1,C2,C3,C4,C5
f1,1,2,3,6,12
f2,2,4,6,12,24
f3,3,6,9,18,36
f4,4,8,12,24,48
f5,10,20,30,60,120


Al aplicar la función sobre la columna `C4`, se aplica una función sobre cada elemento de la `Serie`.
<img src="img/apply_serie_double.png" width="250">

Al igual que las `ufuncs` de numpy, `pandas` implementa la mayoria de las funciones estadísticas, como la suma, media, desvío estándar, como métodos del `DataFrame`, por lo que no es necesario utilizar `apply()`. 

In [27]:
df.sum(axis=0)

C1     20
C2     40
C3     60
C4    120
C5    240
dtype: int64

#### Consideraciones sobre eficiencia

In [28]:
np.random.seed(2)

df_test = pd.DataFrame(np.random.randint(100, size=(1000000, 2)), columns=list('ab'))
df_test

Unnamed: 0,a,b
0,40,15
1,72,22
2,43,82
3,75,7
4,34,49
...,...,...
999995,19,66
999996,72,87
999997,18,65
999998,16,33


In [29]:
%time df_test['a'] * 2

CPU times: total: 0 ns
Wall time: 3 ms


0          80
1         144
2          86
3         150
4          68
         ... 
999995     38
999996    144
999997     36
999998     32
999999    138
Name: a, Length: 1000000, dtype: int32

In [30]:
%time df_test['a'].apply(lambda x: x*2)

CPU times: total: 438 ms
Wall time: 433 ms


0          80
1         144
2          86
3         150
4          68
         ... 
999995     38
999996    144
999997     36
999998     32
999999    138
Name: a, Length: 1000000, dtype: int64

Al aplicar el método `apply()` se pierde la vectorización de `Numpy`. Cuando sea posible aplicar operaciones vectorizadas, es recomendable hacerlo. 

##  2) Caso de uso

Vamos a profundizar estos conceptos aplicándolos a un dataset de métricas de distintos usiarios de una empresa de telecomunicaciones. Dataset original: [kaggle](https://www.kaggle.com/abhinav89/telecom-customer)

#### 2.1) Primer paso: crear un `DataFrame` a partir de un csv
Como primer paso, vamos a abrir el archivo csv con la función `open()` de Python. De esta forma vamos a poder tener una idea del contenido del file y vamos a saber cómo importarlo con `Pandas`.  

In [31]:
with open('data/Telecom_customer churn.csv', "r") as f:
    # Usamos un for loop para ir leyendo las lineas:
    for i in range(5):
        print(f.readline())

rev_Mean,mou_Mean,totmrc_Mean,roam_Mean,change_mou,change_rev,churn,months,uniqsubs,actvsubs,new_cell,totcalls,totmou,totrev,area,phones,hnd_webcap,income,creditcd,Customer_ID

"23,9975","219,25","22,5",0,"-157,25","-18,9975",1,61,2,1,U,1652,4228,"1504,62",NORTHWEST/ROCKY MOUNTAIN AREA,2,WCMB,4,Y,1000001

"57,4925","482,75","37,425",0,"532,25","50,9875",0,56,1,1,N,14654,26400,"2851,68",CHICAGO AREA,7,WC,5,Y,1000002

"16,99","10,25","16,99",0,"-4,25",0,1,58,1,1,Y,7903,"24385,05333","2155,91",GREAT LAKES AREA,2,NA,5,Y,1000003

38,"7,5",38,0,"-1,5",0,0,60,1,1,Y,1502,3065,"2000,9",CHICAGO AREA,1,NA,6,Y,1000004



Vemos que los datos están separados con `,` y que la última columna tiene el id de los clientes. 
Vamos a especificar esto en la función de `pd.read_csv()` al importar el csv y crear un `DataFrame`. Tenemos que indicar el path en el cual la función tiene que ir a buscar el file csv.

In [32]:
# Vamos a crear un DataFrame llamado formacion0 donde guardaremos los datos de esa formación.
churn_df = pd.read_csv('data/Telecom_customer churn.csv', sep = ",", index_col=-1)

Existen otras funciones de `Pandas` para importar datos, que pueden leer files de excel, texto, etc. `Pandas` está muy bien documentado, por lo que ante la necesidad, lo más práctico es ir a leer la documentación para saber cómo importar los datos.

[Documentación pandas](https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html)

Lo primero que vamos a hacer es invocar el atributo `shape` para ver la cantidad de filas y columnas de nuestro `DataFrame`: 

In [33]:
churn_df.shape

(1000, 19)

Tenemos 1000 clientes 19 columnas que detallamos anteriormente (El id del cliente lo usamos como index).

Veamos las primeras 5 filas con el método `head()`: 

In [34]:
churn_df.head()

Unnamed: 0_level_0,rev_Mean,mou_Mean,totmrc_Mean,roam_Mean,change_mou,change_rev,churn,months,uniqsubs,actvsubs,new_cell,totcalls,totmou,totrev,area,phones,hnd_webcap,income,creditcd
Customer_ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1
1000001,239975,21925,225,0,-15725,-189975,1,61,2,1,U,1652,4228,150462,NORTHWEST/ROCKY MOUNTAIN AREA,2,WCMB,4.0,Y
1000002,574925,48275,37425,0,53225,509875,0,56,1,1,N,14654,26400,285168,CHICAGO AREA,7,WC,5.0,Y
1000003,1699,1025,1699,0,-425,0,1,58,1,1,Y,7903,2438505333,215591,GREAT LAKES AREA,2,,5.0,Y
1000004,38,75,38,0,-15,0,0,60,1,1,Y,1502,3065,20009,CHICAGO AREA,1,,6.0,Y
1000005,5523,5705,7198,0,385,0,0,57,1,1,Y,4485,14028,218112,NEW ENGLAND AREA,6,WCMB,6.0,Y


Con el atributo `df.dtypes` podemos ver los tipos de cada una de las columnas del `DataFrame`:

In [35]:
print(churn_df.dtypes.index)
print(churn_df.dtypes.values)
# print(churn_df["rev_Mean"].dtype)

Index(['rev_Mean', 'mou_Mean', 'totmrc_Mean', 'roam_Mean', 'change_mou',
       'change_rev', 'churn', 'months', 'uniqsubs', 'actvsubs', 'new_cell',
       'totcalls', 'totmou', 'totrev', 'area', 'phones', 'hnd_webcap',
       'income', 'creditcd'],
      dtype='object')
[dtype('O') dtype('O') dtype('O') dtype('O') dtype('O') dtype('O')
 dtype('int64') dtype('int64') dtype('int64') dtype('int64') dtype('O')
 dtype('int64') dtype('O') dtype('O') dtype('O') dtype('int64') dtype('O')
 dtype('float64') dtype('O')]


Vemos que son todos `object` o `int64`.
Si observamos las columnas `mou_Mean`, `totmrc_Mean`, `roam_Mean`, `change_mou`, `change_rev`, `totcalls` y `totmou`, vemos que estan casteadas como `string`, pero son numeros `float`

Los nombres de las columnas también se pueden ver en el atributo `columns`:

In [36]:
churn_df.columns

Index(['rev_Mean', 'mou_Mean', 'totmrc_Mean', 'roam_Mean', 'change_mou',
       'change_rev', 'churn', 'months', 'uniqsubs', 'actvsubs', 'new_cell',
       'totcalls', 'totmou', 'totrev', 'area', 'phones', 'hnd_webcap',
       'income', 'creditcd'],
      dtype='object')

Podemos apreciar que son nombres que pueden no ser significativos.`Pandas` nos permite renombrar las columnas por nombres más cómodos:

In [37]:
churn_df.rename(columns= {"phones": "phones_quantity",
                          "creditcd": "credit_code"},
                    inplace = False).head(3)

Unnamed: 0_level_0,rev_Mean,mou_Mean,totmrc_Mean,roam_Mean,change_mou,change_rev,churn,months,uniqsubs,actvsubs,new_cell,totcalls,totmou,totrev,area,phones_quantity,hnd_webcap,income,credit_code
Customer_ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1
1000001,239975,21925,225,0,-15725,-189975,1,61,2,1,U,1652,4228,150462,NORTHWEST/ROCKY MOUNTAIN AREA,2,WCMB,4.0,Y
1000002,574925,48275,37425,0,53225,509875,0,56,1,1,N,14654,26400,285168,CHICAGO AREA,7,WC,5.0,Y
1000003,1699,1025,1699,0,-425,0,1,58,1,1,Y,7903,2438505333,215591,GREAT LAKES AREA,2,,5.0,Y


#### 2.2) `applymap()` sobre todos los elementos de un  `DataFrame`

Con el método `applymap` vamos a trabajar elemento por elemento, realizando las siguientes operaciones:

- El método `strip()` aplicado a un `string` remueve la secuencia de caracteres que se pasa como argumento. Si no pasamos nada, va a remover los espacios en blanco.
- El método `replace()` aplicado a un `string` reemplaza una secuencia de caracteres por otra.
- Finalmente, con la función `float()` estamos casteando como float al argumento de que pasamos a la función. 

Analicemos el caso de la columna `rev_Mean`. Esta columna esta casteada como `string`, pero contiene datos numéricos.
`Pandas` interpreta el tipo de dato, ya que el separador de comas es una `,` en vez de un `.`.

Utilizemos `applymap` para modificar el tipo de dato

In [38]:
ejemplo = '  23,9975  '
print('ejemplo sin cambios:',ejemplo)
ejemplo = ejemplo.strip()
print('ejemplo después del strip():', ejemplo)
ejemplo = ejemplo.replace(',','.')
print('ejemplo después del replace():', ejemplo)
ejemplo = float(ejemplo)
ejemplo

ejemplo sin cambios:   23,9975  
ejemplo después del strip(): 23,9975
ejemplo después del replace(): 23.9975


23.9975

In [39]:
ejemplo = '  23,9975  '
ejemplo = float(ejemplo.strip().replace(',','.'))
type(ejemplo)

float

In [40]:
def try_numeric(x):
    try:
        return float(str(x).strip().replace(',','.'))
    except:
        return x

churn_df.applymap(try_numeric)

Unnamed: 0_level_0,rev_Mean,mou_Mean,totmrc_Mean,roam_Mean,change_mou,change_rev,churn,months,uniqsubs,actvsubs,new_cell,totcalls,totmou,totrev,area,phones,hnd_webcap,income,creditcd
Customer_ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1
1000001,23.9975,219.25,22.5000,0.0000,-157.25,-18.9975,1.0,61.0,2.0,1.0,U,1652.0,4228.000000,1504.62,NORTHWEST/ROCKY MOUNTAIN AREA,2.0,WCMB,4.0,Y
1000002,57.4925,482.75,37.4250,0.0000,532.25,50.9875,0.0,56.0,1.0,1.0,N,14654.0,26400.000000,2851.68,CHICAGO AREA,7.0,WC,5.0,Y
1000003,16.9900,10.25,16.9900,0.0000,-4.25,0.0000,1.0,58.0,1.0,1.0,Y,7903.0,24385.053330,2155.91,GREAT LAKES AREA,2.0,,5.0,Y
1000004,38.0000,7.50,38.0000,0.0000,-1.50,0.0000,0.0,60.0,1.0,1.0,Y,1502.0,3065.000000,2000.90,CHICAGO AREA,1.0,,6.0,Y
1000005,55.2300,570.50,71.9800,0.0000,38.50,0.0000,0.0,57.0,1.0,1.0,Y,4485.0,14028.000000,2181.12,NEW ENGLAND AREA,6.0,WCMB,6.0,Y
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1000996,113.8375,1165.50,88.5325,0.0000,206.50,31.2625,0.0,47.0,1.0,1.0,N,19224.0,48540.476670,6469.47,CALIFORNIA NORTH AREA,5.0,,9.0,Y
1000997,40.8750,248.75,30.0000,0.0000,-7.75,-4.8750,1.0,51.0,1.0,1.0,Y,3443.0,7793.000000,1743.89,NORTHWEST/ROCKY MOUNTAIN AREA,1.0,,4.0,Y
1000998,38.1275,138.25,29.9900,0.0000,55.75,17.4125,1.0,49.0,1.0,1.0,N,2600.0,6195.016667,1848.75,CENTRAL/SOUTH TEXAS AREA,1.0,,9.0,Y
1000999,32.8900,45.50,37.4175,0.4525,0.50,-32.8900,0.0,47.0,1.0,1.0,N,1482.0,2246.000000,2026.99,DALLAS AREA,3.0,WC,4.0,Y


In [58]:
columns_to_transform = [
    'rev_Mean', 
    'mou_Mean', 
    'totmrc_Mean', 
    'roam_Mean', 
    'change_mou', 
    'change_rev', 
    'totmou', 
    'totrev'
]

churn_df[columns_to_transform] = churn_df[columns_to_transform]\
                                    .applymap(lambda x: float(str(x).strip().replace(',','.')))

def func1(x):
    try:
        x = float(str(x).strip().replace(',','.'))
    except:
        x
    return x

#churn_df["apply"] = churn_df[columns_to_transform]\
#                                    .applymap(lambda x: func1(x))

churn_df.head()

Unnamed: 0_level_0,rev_Mean,mou_Mean,totmrc_Mean,roam_Mean,change_mou,change_rev,churn,months,uniqsubs,actvsubs,new_cell,totcalls,totmou,totrev,area,phones,hnd_webcap,income,creditcd,ratio_consumo_recarga
Customer_ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1
1000001,24.0,219.25,22.5,0.0,-157.25,-19.0,1,61,2,1,U,1652,4228.0,1504.62,NORTHWEST/ROCKY MOUNTAIN AREA,2,WCMB,4.0,Y,1.07
1000002,57.49,482.75,37.42,0.0,532.25,50.99,0,56,1,1,N,14654,26400.0,2851.68,CHICAGO AREA,7,WC,5.0,Y,1.54
1000003,16.99,10.25,16.99,0.0,-4.25,0.0,1,58,1,1,Y,7903,24385.05,2155.91,GREAT LAKES AREA,2,,5.0,Y,1.0
1000004,38.0,7.5,38.0,0.0,-1.5,0.0,0,60,1,1,Y,1502,3065.0,2000.9,CHICAGO AREA,1,,6.0,Y,1.0
1000005,55.23,570.5,71.98,0.0,38.5,0.0,0,57,1,1,Y,4485,14028.0,2181.12,NEW ENGLAND AREA,6,WCMB,6.0,Y,0.77


Corroboramos que los `dypes` hayan quedado bien:

In [42]:
churn_df.dtypes

rev_Mean       float64
mou_Mean       float64
totmrc_Mean    float64
roam_Mean      float64
change_mou     float64
change_rev     float64
churn            int64
months           int64
uniqsubs         int64
actvsubs         int64
new_cell        object
totcalls         int64
totmou         float64
totrev         float64
area            object
phones           int64
hnd_webcap      object
income         float64
creditcd        object
dtype: object

Con el método `describe()` obtenemos un reporte estadístico del `DataFrame`:

In [43]:
pd.options.display.float_format = '{:.2f}'.format
churn_df.describe()

Unnamed: 0,rev_Mean,mou_Mean,totmrc_Mean,roam_Mean,change_mou,change_rev,churn,months,uniqsubs,actvsubs,totcalls,totmou,totrev,phones,income
count,1000.0,997.0,997.0,997.0,993.0,993.0,1000.0,1000.0,1000.0,1000.0,1000.0,1000.0,1000.0,1000.0,845.0
mean,78.49,753.54,57.42,1.2,-48.99,-4.51,0.5,50.36,1.68,1.44,15244.42,34630.81,3621.33,4.52,6.12
std,58.75,787.11,31.18,6.41,306.4,35.15,0.5,2.89,1.05,0.78,15405.44,31865.84,2025.08,3.14,2.12
min,1.55,0.0,0.0,0.0,-2441.25,-324.3,0.0,45.0,1.0,0.0,18.0,32.0,381.21,1.0,1.0
25%,38.3,155.75,34.98,0.0,-122.5,-10.41,0.0,48.0,1.0,1.0,4230.25,10615.47,2184.35,2.0,5.0
50%,66.34,514.5,50.0,0.0,-8.5,-0.54,0.0,50.0,1.0,1.0,10561.0,25305.62,3259.92,4.0,6.0
75%,97.07,1107.25,75.0,0.1,57.0,1.48,1.0,52.0,2.0,2.0,20891.25,49818.05,4561.25,6.0,8.0
max,559.79,6336.25,301.98,144.86,1536.25,277.17,1.0,61.0,7.0,6.0,98874.0,233419.1,19754.85,24.0,9.0


#### 2.3) `apply()` sobre filas de un `DataFrame`

Vamos a calcular la relación entre el consumo medio `rev_Mean` y el Valor medio de recargas mensuales `totmrc_Mean` para cada cliente del dataset. 

Escribimos la operación como una función `Lambda`, que pasaremos como primer argumento del método `apply()`.

Como vimos previamente, para el argumento axis tenemos:

    0 or ‘index’: aplica la función a cada columna.

    1 or ‘columns’: aplica la función a cada fila. 

Por lo tanto, en el segundo argumento el valor de de axis es 1 porque queremos aplicar la función a cada fila.

Como tenemos que hacer una división, debemos verificar que el denominador no sea cero. Para eso vamos a escribir una expresión condicional en una linea con esta sintaxis:

`value_when_true if condition else value_when_false`

En este caso:

`0 if x['totmrc_Mean'] == 0 else x['rev_Mean'] / x['totmrc_Mean']`


In [61]:
churn_df['ratio_consumo_recarga'] = churn_df.apply(
                                    lambda x: 0 if x['totmrc_Mean'] == 0 else x['rev_Mean'] / x['totmrc_Mean']
                                    , axis=1)

churn_df.head()

Unnamed: 0_level_0,rev_Mean,mou_Mean,totmrc_Mean,roam_Mean,change_mou,change_rev,churn,months,uniqsubs,actvsubs,new_cell,totcalls,totmou,totrev,area,phones,hnd_webcap,income,creditcd,ratio_consumo_recarga
Customer_ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1
1000001,24.0,219.25,22.5,0.0,-157.25,-19.0,1,61,2,1,U,1652,4228.0,1504.62,NORTHWEST/ROCKY MOUNTAIN AREA,2,WCMB,4.0,Y,1.07
1000002,57.49,482.75,37.42,0.0,532.25,50.99,0,56,1,1,N,14654,26400.0,2851.68,CHICAGO AREA,7,WC,5.0,Y,1.54
1000003,16.99,10.25,16.99,0.0,-4.25,0.0,1,58,1,1,Y,7903,24385.05,2155.91,GREAT LAKES AREA,2,,5.0,Y,1.0
1000004,38.0,7.5,38.0,0.0,-1.5,0.0,0,60,1,1,Y,1502,3065.0,2000.9,CHICAGO AREA,1,,6.0,Y,1.0
1000005,55.23,570.5,71.98,0.0,38.5,0.0,0,57,1,1,Y,4485,14028.0,2181.12,NEW ENGLAND AREA,6,WCMB,6.0,Y,0.77


Podríamos obtener el mismo resultado dividiendo una columna por la otra, pero obtendríamos `NaN` en los casos en los que el denominador sea 0.

#### 2.4) `apply()` sobre columnas de un `DataFrame` 

Ahora vamos a calcular el promedio y el desvío estándar de cada una de las columnas que sean `float`. 

Como queremos aplicar esta función sobre cada una de las columnas del DataFrame, el valor de `axis` que usamos es 0.

In [45]:
churn_df.select_dtypes(include=['float64']).columns

Index(['rev_Mean', 'mou_Mean', 'totmrc_Mean', 'roam_Mean', 'change_mou',
       'change_rev', 'totmou', 'totrev', 'income', 'ratio_consumo_recarga'],
      dtype='object')

In [68]:
stats = churn_df.select_dtypes(include=['float64']) \
           .apply( lambda x: [np.round(x.mean(), 2), np.round(x.std(), 2)], axis=0)

print(churn_df.index.values)

# stats.index = ['mean', 'std']
stats

[1000001 1000002 1000003 1000004 1000005 1000006 1000007 1000008 1000009
 1000010 1000011 1000012 1000013 1000014 1000015 1000016 1000017 1000018
 1000019 1000020 1000021 1000022 1000023 1000024 1000025 1000026 1000027
 1000028 1000029 1000030 1000031 1000032 1000033 1000034 1000035 1000036
 1000037 1000038 1000039 1000040 1000041 1000042 1000043 1000044 1000045
 1000046 1000047 1000048 1000049 1000050 1000051 1000052 1000053 1000054
 1000055 1000056 1000057 1000058 1000059 1000060 1000061 1000062 1000063
 1000064 1000065 1000066 1000067 1000068 1000069 1000070 1000071 1000072
 1000073 1000074 1000075 1000076 1000077 1000078 1000079 1000080 1000081
 1000082 1000083 1000084 1000085 1000086 1000087 1000088 1000089 1000090
 1000091 1000092 1000093 1000094 1000095 1000096 1000097 1000098 1000099
 1000100 1000101 1000102 1000103 1000104 1000105 1000106 1000107 1000108
 1000109 1000110 1000111 1000112 1000113 1000114 1000115 1000116 1000117
 1000118 1000119 1000120 1000121 1000122 1000123 10

Unnamed: 0,rev_Mean,mou_Mean,totmrc_Mean,roam_Mean,change_mou,change_rev,totmou,totrev,income,ratio_consumo_recarga
0,78.49,753.54,57.42,1.2,-48.99,-4.51,34630.81,3621.33,6.12,1.38
1,58.75,787.11,31.18,6.41,306.4,35.15,31865.84,2025.08,2.12,0.86


#### 2.5) `apply()` sobre un objeto `Series`

Construimos una instancia de `Series` con los valores de la columna **ratio_consumo_recarga**.

Vamos a elevar al cuadrado todos los elementos de la serie:

In [69]:
ratio_consumo_recarga = churn_df['ratio_consumo_recarga']

print('type of ratio_consumo_recarga:', type(ratio_consumo_recarga))
print('\n')

ratio_consumo_recarga_sq = ratio_consumo_recarga.apply(lambda x: x ** 2)

print('head of ratio_consumo_recarga:', ratio_consumo_recarga.head())
print('\n')
print('head of ratio_consumo_recarga_sq:', ratio_consumo_recarga_sq.head())  

type of ratio_consumo_recarga: <class 'pandas.core.series.Series'>


head of ratio_consumo_recarga: Customer_ID
1000001   1.07
1000002   1.54
1000003   1.00
1000004   1.00
1000005   0.77
Name: ratio_consumo_recarga, dtype: float64


head of ratio_consumo_recarga_sq: Customer_ID
1000001   1.14
1000002   2.36
1000003   1.00
1000004   1.00
1000005   0.59
Name: ratio_consumo_recarga, dtype: float64


## Nota sobre métodos de objetos Series y objetos DataFrame

Una `Series` y un `DataFrame` pueden tener un método con el mismo nombre y la misma funcionalidad, pero hay que entender que son métodos que pertenecen a clases diferentes y por lo tanto puede haber diferencias entre ellos, a pesar de las similitudes.

Por ejemplo, el caso del método `sort_values()`. Veamos el caso de una serie:

`Series.sort_values(self, axis=0, ascending=True, inplace=False, kind='quicksort', na_position='last', ignore_index=False)`

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.sort_values.html

In [48]:
# Con ascending=False los datos serán ordenados de mayor a menor:

ratio_consumo_recarga.sort_values(ascending=False).head(10)

Customer_ID
1000471   12.97
1000914   10.63
1000771    7.73
1000652    7.46
1000174    6.34
1000917    6.21
1000707    5.25
1000573    5.21
1000734    4.83
1000208    4.70
Name: ratio_consumo_recarga, dtype: float64

Ahora, el método de la clase `DataFrame`, es muy similar pero con una diferencia muy importante:

`DataFrame.sort_values(self, by, axis=0, ascending=True, inplace=False, kind='quicksort', na_position='last', ignore_index=False)`

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sort_values.html

Toma el parámetro `by`, que en una `Series` no tendría sentido porque solamente hay una sola secuencia de `values` por la cual podemos ordenar. 

check también: `sort_index()`

In [49]:
churn_df.sort_values(by=['ratio_consumo_recarga', 'rev_Mean'], ascending=False)

Unnamed: 0_level_0,rev_Mean,mou_Mean,totmrc_Mean,roam_Mean,change_mou,change_rev,churn,months,uniqsubs,actvsubs,new_cell,totcalls,totmou,totrev,area,phones,hnd_webcap,income,creditcd,ratio_consumo_recarga
Customer_ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1
1000471,87.07,196.50,6.71,0.00,-67.50,141.93,1,53,2,1,Y,35951,74665.09,4934.14,SOUTH FLORIDA AREA,3,WC,5.00,Y,12.97
1000914,131.07,238.25,12.33,0.00,-89.25,-55.87,0,45,1,1,Y,5880,12899.14,3412.96,DALLAS AREA,2,WCMB,7.00,Y,10.63
1000771,301.59,1618.00,39.00,0.00,-161.00,-24.84,1,48,1,1,Y,10862,31550.00,4948.59,MIDWEST AREA,4,WC,,N,7.73
1000652,559.79,6336.25,75.00,0.00,135.75,97.26,0,51,2,2,Y,84073,233419.10,19754.85,PHILADELPHIA AREA,8,WCMB,7.00,Y,7.46
1000174,63.41,1181.00,10.00,0.00,156.00,45.54,1,51,2,2,N,16223,42351.05,3319.79,CENTRAL/SOUTH TEXAS AREA,5,WCMB,8.00,Y,6.34
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1000643,5.00,0.00,0.00,0.00,0.00,0.00,1,51,3,2,N,1904,6428.00,996.71,CENTRAL/SOUTH TEXAS AREA,3,WC,6.00,Y,0.00
1000838,5.00,0.00,0.00,0.00,0.00,0.00,1,52,2,2,N,4501,8781.03,1610.53,NORTHWEST/ROCKY MOUNTAIN AREA,2,,6.00,Y,0.00
1000232,1.65,,,,,,1,49,1,1,N,62,105.00,523.50,MIDWEST AREA,2,,1.00,N,
1000225,1.56,,,,,,1,55,2,2,N,14702,40689.04,3415.63,GREAT LAKES AREA,3,,5.00,Y,


En las siguientes clases seguiremos profundizando los conceptos de analisis de datos con Pandas, realizando agregaciones y operaciones en grupo.


<!-- <span style="font-size:1.5em">Fin de la clase.</span> -->

<span style="font-size:2em">Muchas gracias por su atención!</span>