## Herramientas
- Python 3.x 
- Colab
- [Pandas](https://github.com/pandas-dev/pandas).
- [Orange Data Maining](https://orangedatamining.com).

## Preparación del entorno

   1. Entorno de [COLAB](https://colab.research.google.com).
   2. Python [cheatsheet](https://quickref.me/python).
   2. Github [customer-analytics](https://github.com/limspiga/customer-analytics).


# **1. Preparación y limpieza de los datos**
Se revisará como procesar y limpiar datos para  prepararlos de manera efectiva para un análisis posterior. Con Pandas, podrá leer e importar datos como JSON y CSV, en un DataFrame. Luego aprenderá a fraccionar, agregar y filtrar en DataFrames.

* Datos estructurados

<center>

| employee id | first name | last_name | hire_date | confirmation_date |
| --- | - | - | ----------- | ----------- |
| FTE_1782 | John |Doe |31-03-2016 | 29-07-2016 |
| FTE_1783 | Patrick |Forrester |31-03-2016 | 21-09-2013 |
| FTE_1784 | Pierre |Blanchet |31-03-2016 | 23-12-2007 |
| FTE_1785 | Prachi |Jain |31-03-2016 | 26-07-2011 |
| FTE_1786 | Sally |Pressfield |31-03-2016 | 30-04-2012 |

</center>

* Datos semi-estructurados
```json
    {
      "id": "101"
      "name": "Jack Jones"
      "email": "jackjones123@example.com"
      "age": 35
      "address": "31, Chivas Place"
      "city": "San Diego"
      "state": "California"
    }
```


* Data sin estructura

<!-- ![](https://drive.google.com/uc?export=view&id=17UiceM4BxgN9s9A44VzLZVgNL0eA04_c) -->

<figure>
<center>
<img src='https://drive.google.com/uc?export=view&id=17UiceM4BxgN9s9A44VzLZVgNL0eA04_c' width="300" />
<figcaption>Figure 1.1: Data model for marketing analytics</figcaption></center>
</figure>

## **Pandas**
- https://pandas.pydata.org/
- https://pandas.pydata.org/docs/user_guide/index.html

Pandas es un componente manipulación y el análisis de datos. Ofrece una colección de herramientas de análisis y estructuras de datos intuitivas, fáciles de usar y de alto rendimiento que son de gran utilidad tanto para los analistas de marketing como para los científicos de datos.


Pandas tipos de objetos principales DataFrame

* DataFrame: almacena datos en filas y columnas (como una hoja de cálculo)
* Series: columna sola del DataFrame

<figure>
<center>
<img src='https://drive.google.com/uc?export=view&id=1cWgnaDWiDTWs_bnuacHJUE0GrLeBs6HT' width="300" />
<figcaption>Figure 1.2: A sample pandas DataFrame and series</figcaption></center>
</figure>


## Importación y exportación de datos con pandas DataFrames ##
Cada equipo de un grupo de marketing puede tener su propia fuente de datos preferida para su caso de uso específico. Los equipos que manejan muchos datos de clientes, como detalles demográficos e historial de compras, preferirían una base de datos como MySQL u Oracle, mientras que los equipos que manejan mucho texto podrían preferir JSON, CSV o XML. Debido al uso de múltiples fuentes de datos, terminamos teniendo una gran variedad de archivos. En tales casos, la biblioteca de pandas  que proporciona una variedad de API (interfaces de programas de aplicación) que se pueden usar para leer múltiples tipos diferentes de datos en un DataFrames.

- https://pandas.pydata.org/docs/user_guide/10min.html#importing-and-exporting-data
- https://raw.githubusercontent.com/limspiga/customer-analytics/main/week-1/sales.csv

In [4]:
#@title Texto de título predeterminado
# 1. Instalación
!pip install pandas

# 2. Importar pandas library
import pandas as pd

# 3. Ejecutamos el siguiente código para almacenar el archivo CSV en un DataFrame
!curl https://raw.githubusercontent.com/limspiga/customer-analytics/main/week-1a/sales.csv -O

df = pd.read_csv("sales.csv") 

# df = pd.read_csv(r"C:\Users\lim\Documents\sales.csv")
# df = pd.read_csv("sales.csv", header=1, nrows=10, usecols=[0,1,2])
print(df)

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
100  8294  100  8294    0     0   231k      0 --:--:-- --:--:-- --:--:--  231k
    Year  Product       line Product.1  type  Product.2  Order method  \
0   2004  Camping  Equipment   Cooking  Gear  TrailChef  Water    Bag   
1   2004  Camping  Equipment   Cooking  Gear  TrailChef  Water    Bag   
2   2004  Camping  Equipment   Cooking  Gear  TrailChef  Water    Bag   
3   2004  Camping  Equipment   Cooking  Gear  TrailChef  Water    Bag   
4   2004  Camping  Equipment   Cooking  Gear  TrailChef  Water    Bag   
..   ...      ...        ...       ...   ...        ...    ...    ...   
95  2004  Camping  Equipment   Cooking  Gear  TrailChef  Water    Bag   
96  2004  Camping  Equipment   Cooking  Gear  TrailChef  Water    Bag   
97  200

In [5]:
df.head()

Unnamed: 0,Year,Product,line,Product.1,type,Product.2,Order,method,type.1,Retailer,country,Revenue
0,2004,Camping,Equipment,Cooking,Gear,TrailChef,Water,Bag,Telephone,United,States,315044.33
1,2004,Camping,Equipment,Cooking,Gear,TrailChef,Water,Bag,Telephone,Canada,,14313.48
2,2004,Camping,Equipment,Cooking,Gear,TrailChef,Water,Bag,Telephone,Mexico,,156644.47
3,2004,Camping,Equipment,Cooking,Gear,TrailChef,Water,Bag,Telephone,Brazil,,59191.72
4,2004,Camping,Equipment,Cooking,Gear,TrailChef,Water,Bag,Telephone,Japan,,7029.33


In [6]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 12 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   Year       100 non-null    int64  
 1   Product    100 non-null    object 
 2   line       100 non-null    object 
 3   Product.1  100 non-null    object 
 4   type       100 non-null    object 
 5   Product.2  100 non-null    object 
 6   Order      100 non-null    object 
 7   method     100 non-null    object 
 8   type.1     100 non-null    object 
 9   Retailer   100 non-null    object 
 10  country    9 non-null      object 
 11  Revenue    100 non-null    float64
dtypes: float64(1), int64(1), object(10)
memory usage: 9.5+ KB


In [7]:
df.shape

(100, 12)

## Ejercicio 1.01: Carga de datos almacenados en un archivo JSON ##
El equipo técnico de su empresa ha estado probando una versión web de su aplicación de compras insignia. Se pidió a algunos usuarios leales que se ofrecieron como voluntarios para probar el sitio web que enviaran sus datos a través de un formulario en línea. El formulario capturó algunos detalles útiles (como la edad, los ingresos y más) junto con algunos no tan útiles (como el color de los ojos). Luego, el equipo técnico probó su nuevo módulo de página de perfil, mediante el cual se capturaron algunos detalles adicionales. Todos estos datos se almacenaron en un archivo JSON llamado user_info.json, que el equipo técnico le envió para su validación.


El objetivo es importar este archivo JSON a Pandas y dejar que el equipo técnico conozca las respuestas a las siguientes preguntas para que puedan agregar más módulos al sitio web:

* ¿Se están cargando correctamente los datos?
* ¿Hay valores faltantes en alguna de las columnas?
* ¿Cuáles son los tipos de datos de todas las columnas?
* ¿Cuántas filas y columnas hay en el conjunto de datos?

In [9]:
# 1. Importar la biblioteca de pandas.
import pandas as pd

In [None]:
# 2. Bajar los datos de repo
!curl https://raw.githubusercontent.com/limspiga/customer-analytics/main/week-1a/user_info.json -O

In [13]:
# 3. Crear un nuevo DataFrame con el nombre user_info y leer el archivo user_info.json
user_info = pd.read_json("user_info.json")

In [None]:
# 4. Examinar si los datos se cargaron correctamente al verificar los primeros cinco valores en el DataFrame.
user_info.head()

In [None]:
# 5. Ahora, para responder a la segunda pregunta, necesitará usar el comando info():
user_info.info()

In [16]:
# 6. Ejecute el siguiente comando para verificar la cantidad de filas y columnas 
# en el DataFrame de información de usuario:
user_info.shape

(6, 22)

In [None]:
# En este ejercicio, se cargaron datos, se verificó si se cargaron correctamente,
# se obtuvo más información sobre las entradas contenidas en él.
# Todo esto se hizo cargando datos almacenados en una sola fuente, que era el archivo JSON.
# Como analista de marketing, se encontrará con situaciones en las que deberá
# cargar y procesar datos de diferentes fuentes.

## Ejercicio 1.02: Carga de datos de múltiples fuentes ##

Trabajas para una empresa que utiliza Facebook para sus campañas de marketing. El archivo data.csv contiene las vistas y los me gusta de 100 publicaciones diferentes en Facebook utilizadas para una campaña de marketing. El equipo también utiliza datos históricos de ventas para obtener información. El archivo sales.csv contiene algunos datos históricos de ventas registrados en un archivo CSV relacionados con diferentes compras de clientes en las tiendas en los últimos años.

El objetivo es leer los archivos  DataFrames y verificar lo siguiente:

- Si alguno de los conjuntos de datos contiene valores nulos o faltantes
- Si los datos se almacenan en las columnas correctas y los nombres de las columnas correspondientes tienen sentido (en otras palabras, los nombres de las columnas transmiten correctamente qué tipo de información se almacena en las filas)

In [31]:
import pandas as pd

In [45]:
# 1. Download dataset
!curl https://raw.githubusercontent.com/limspiga/customer-analytics/main/week-1a/data.csv -O

  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0100  1074  100  1074    0     0  28263      0 --:--:-- --:--:-- --:--:-- 28263


In [46]:
# 2. Bajar un nuevo DataFrame llamado Campaign_data. Con el método read_csv para leer el contenido del archivo data.csv
campaign_data = pd.read_csv("data.csv")

In [None]:
# 3. Examinamos las primeras cinco filas del DataFrame usando la función head():
campaign_data.head()

In [47]:
# 4. Para leer los nombres de las columnas, leeremos los datos en Campaign_data
# de nuevo (paso 2), pero esta vez
# deberá usamos el parámetro de encabezado para que las entradas
# en la primera fila se lean como nombres de columna.
# El parámetro header = 1 lee la primera fila como el encabezado:
campaign_data = pd.read_csv("data.csv", header = 1)

In [None]:
# volvemos a ejecutar el comando head:
campaign_data.head()

In [None]:
# 5. Ahora, examinamos las últimas cinco filas usando la función tail():
campaign_data.tail()

In [None]:
# 6. Aunque hemos visto las últimas filas, todavía no podemos estar seguros de que todas los
# valores en la parte central (oculta) del DataFrame no tienen ningún valor nulo.
# Verifique los tipos de datos del DataFrame para estar seguro usando el siguiente comando:
campaign_data.info()

In [28]:
# 7. Ahora, analizamos el archivo sales.csv. 
# Creamos un DataFrame llamado sales. Utilizamos el método read_csv() para leer el contenido del archivo sales.csv
sales = pd.read_csv("sales.csv")

In [None]:
# 8. Observamos las primeras cinco filas del DataFrame de sales usando el siguiente comando:
sales.head()

In [None]:
# 9. Para buscar valores nulos y examinar los tipos de datos de las columnas, ejecutamos el siguiente comando:
sales.info()

## Estructura de DataFrames y series de pandas ## 

Cuando no se sabe que estructura de datos usar porque se desconoce si faltan valores, además la clasificacion la información se llevara por equipos diferentes.

En este caso en lugar de índices numéricos (0-10), se usan etiquetas personalizadas para acceder a valores específicos. 

Pandas proporciona las _**Series**_ como estructuras almacenar y trabajar los datos.

https://pandas.pydata.org/pandas-docs/stable/reference/series.html

<figure>
<center>
<img src='https://drive.google.com/uc?export=view&id=1_wPIUED_kQWvu6IOo3p60Y6ngH4gPMEW' width="800" />
<figcaption>Figura 1.3: Muestra de una serie de pandas</figcaption></center>
</figure>

A medida que una campaña crece, también lo hace el número de series. Con eso, surgen nuevos requisitos. Ahora, si se desea poder realizar operaciones como la concatenación
en entradas específicas en varias series a la vez. Sin embargo, para acceder a los valores, estas diferentes series deben compartir el mismo **_índice_**. Y ahí es exactamente donde los DataFrames entran en escena. 

Un _**DataFrame**_ de pandas es solo un diccionario con los nombres de las columnas como claves y valores como diferentes series de pandas, unidos por el índice.

Un DataFrame se crea cuando diferentes columnas (que no son más que series) como estas se unen mediante el índice

<figure>
<center>
<img src='https://drive.google.com/uc?export=view&id=1Jj4X1do-IeavHx3OBlgL6PDdseEyV90q' width="800" />
<figcaption>Figura 1.4: Series unidas por el mismo índice crean un DataFrame de pandas</figcaption></center>
</figure>

En la figura 1.4, se observa los números del 0 al 4 a la izquierda de la columna de age. Estos son los índices. Las columnas age, balance, _id, about y address, junto con otras, son series y juntas forman un DataFrame.

Esta forma de almacenar datos hace que sea muy fácil realizar las operaciones que necesita en los datos que desea. 

Se puede elegir fácilmente la serie que desea **modificar** seleccionando una columna y cortando directamente los índices en función del valor de esa columna. También se puede **agrupar** índices con valores similares en una columna y ver cómo cambian los valores en otras columnas.




In [None]:
# Aplicar la función de suma a todas las filas en la columna de saldo del DataFrame
# df['balance'].sum(axis=0)
# import pandas as pd
# !curl https://raw.githubusercontent.com/limspiga/customer-analytics/main/week-1/user_info.json -O
user_info = pd.read_json("user_info.json")
user_info

In [55]:
user_info['age']

0    20
1    22
2    40
3    29
4    33
5    23
Name: age, dtype: int64

In [56]:
user_info['balance']

0    $3,806.93
1    $3,330.01
2    $1,619.46
3    $3,334.12
4    $1,368.48
5    $2,441.66
Name: balance, dtype: object


Pandas también permite que se apliquen operaciones tanto a las filas como a las columnas de un DataFrame. Puede elegir cuál aplicar especificando el eje, 0 se refiere a las filas y 1 se refiere a las columnas.

<figure>
<center>
<img src='https://drive.google.com/uc?export=view&id=1CDbNd7YhZOE9NuePKXHp24yQsqwajR_7' width="800" />
<figcaption>Figura 1.5: Series unidas por el mismo índice crean un DataFrame de pandas</figcaption></center>
</figure>

In [59]:
# user_info['balance'].sum(axis=0)
# user_info['balance'].astype(float)
# user_info['balance'].replace('[\$,]', '', regex=True).astype(float)
user_info['balance'].replace('[\$,]', '', regex=True).astype(float).sum(axis=0)

15900.66

## Manipulación de datos ##

Tareas de manipulación de datos en DataFrame:

1. Crear nuevos DataFrames

2. Seleccionar o dividir un DataFrame

3. Filtrar DataFrames para algunos valores

4. Unir diferentes DataFrames

# Selección y filtrado de DataFrames

Para accesar a una celda en particular en una hoja de cálculo, se hace dirigiéndose a esa celda usando (nombre de columna, nombre de fila). Por ejemplo, cuando llama a la celda A63, A se refiere a la columna y 63 se refiere a la fila. Los datos se almacenan de manera similar en pandas, pero como (nombre de fila, nombre de columna) y podemos usar la misma convención para acceder a las celdas en un DataFrame.

Por ejemplo, mire el siguiente DataFrame. La columna de viewers es el índice del DataFrame:



In [None]:
!curl https://raw.githubusercontent.com/limspiga/customer-analytics/main/week-1a/viewers.json -O
df = pd.read_json("viewers.json")
df

In [72]:
# df.loc[[1,2],['cost','views']] 

# Error porque no tiene un indice
# df.loc[['Adam','Anurag'],['cost','views']] 

# df.set_index(['viewers'], inplace = True)
df.loc[['Adam','Anurag'],['cost','views']] 

Unnamed: 0_level_0,cost,views
viewers,Unnamed: 1_level_1,Unnamed: 2_level_1
Adam,20.0,17.9
Anurag,,42.47


Si se necesita acceder a más de una sola celda, como un subconjunto de algunas filas y columnas del DataFrame, o cambiar el orden de visualización de algunas columnas en el DataFrame, se puede utilizar la sintaxis que se muestra en la siguiente tabla:


<figure>
<center>
<img src='https://drive.google.com/uc?export=view&id=1F59DroUz3CdVrl4GR-YGXEQ0i666kNtI' width="800" />
<figcaption>Figura 1.5: Sintaxis utilizada para diferentes operaciones en un DataFrame de pandas</figcaption></center>
</figure>


In [78]:
# df = pd.read_json("viewers.json")
# df ['views']

# df [['views', 'users']]
# df.loc [1]
# df.iloc [1, 2]

# df.af[1, 4] // descontinuado

## Creating DataFrames in Python ## 
Desde cero

In [None]:
import pandas as pd
import numpy as np

df1 = pd.DataFrame() 
df2 = pd.DataFrame()

df1['viewers'] = ["Sushmita", "Adam", "Benny", "Anurag"]
df2['users'] = ["Adam", "Anurag", "Benny", "Sushmita", "Apoorva"]

In [None]:
df1 = df1.assign(views = [31.2, 17.9, 265.23, 42.47]) 
df1

In [None]:
df2 = df2.assign(cost =  [20, np.nan,     15,     2, 7])
df1.head() 

In [None]:
df = df1.merge(df2, left_on="viewers", right_on="users", how="left") 
df.head()
df

In [None]:
df['Gender'] = ["Female", "Male", "Male", "Female"]
df

In [None]:
df['Gender'] = df['Gender'].map({"Female":"F","Male":"M"})
df
# output = df.to_json(orient = 'columns')
# print(output)

In [None]:
df.groupby('Gender')['cost'].sum()

In [None]:
df.set_index(['viewers'], inplace = True)
df.head()

In [None]:
df.loc[['Adam','Anurag'],['cost','views']]

## Creating DataFrames in Python ##

Creación de nuevos DataFrames: por lo general, utiliza la función de DataFrames para crear un DataFrames nuevo. La función convierte directamente un objeto Python
en un marco de datos de pandas. La función DataFrame en general funciona con cualquier colección iterable de datos, como dict y list. También puede pasarle una colección vacía o una colección singleton

In [None]:
df= pd.DataFrame({'Currency': pd.Series(['USD','EUR','GBP']),'ValueInINR': pd.Series([70, 89, 99])})
df.head()

Unnamed: 0,Currency,ValueInINR
0,USD,70
1,EUR,89
2,GBP,99


In [None]:
# Duplicar o cortar un DataFrame previamente existente
import copy
df1 = df.copy(deep=True) # La función DEEP permite al usuario recorrer 
# recursivamente los objetos señalados por las referencias y crear objetos completamente nuevos.

In [None]:
df1.head()

Unnamed: 0,Currency,ValueInINR
0,USD,70
1,EUR,89
2,GBP,99


### Adición y eliminación de atributos y observaciones ###
Este método elimina las filas o columnas especificadas por las etiquetas y el eje correspondiente, o aquellas especificadas por el índice o los nombres de las columnas directamente.

In [None]:
df.drop(['Currency'],axis=1)

Unnamed: 0,ValueInINR
0,70
1,89
2,99


In [None]:
pd.DataFrame.from_dict({'Currency': ['USD','EUR','GBP'],'ValueInINR':[70, 89, 99]})

Unnamed: 0,Currency,ValueInINR
0,USD,70
1,EUR,89
2,GBP,99


## Combinando datos ##

In [92]:
products = {'CampaignYear': [2015, 2016, 2017, 2018, 2019 , 2020, 2021],
        'ProductPrice': [199, 199, 199, 299, 299, 349, 349 ],
        'ProductVersion': ['v1', 'v1', 'v1', 'v2', 'v2', 'v2', 'v3']
        }
df_products = pd.DataFrame(products, columns = ['CampaignYear', 'ProductPrice', 'ProductVersion'])
df_products

Unnamed: 0,CampaignYear,ProductVersion,ProductPrice
0,2015,v1,199
1,2016,v1,199
2,2017,v1,199
3,2018,v2,299
4,2019,v2,299
5,2020,v2,349
6,2021,v3,349


In [96]:
revenue = {'CampaignYear': [ 2016, 2017, 2018, 2019 , 2020, 2021],
        'Revenue': [9473, 8422, 9987, 7994, 9530, 9444 ]
        }
df_revenue = pd.DataFrame(revenue, columns = ['CampaignYear', 'Revenue'])
df_revenue

Unnamed: 0,CampaignYear,Revenue
0,2016,9473
1,2017,8422
2,2018,9987
3,2019,7994
4,2020,9530
5,2021,9444


In [97]:
# merge
df_combined = pd.merge(df_products, df_revenue)
df_combined

Unnamed: 0,CampaignYear,ProductVersion,ProductPrice,Revenue
0,2016,v1,199,9473
1,2017,v1,199,8422
2,2018,v2,299,9987
3,2019,v2,299,7994
4,2020,v2,349,9530
5,2021,v3,349,9444


In [98]:
df_combined_outer = pd.merge(df_products, df_revenue, \
                             how = 'outer')
df_combined_inner = pd.merge(df_products, df_revenue, \
                             how = 'inner')
df_combined_left = pd.merge(df_products, df_revenue, \
                            how = 'left')
df_combined_right = pd.merge(df_products, df_revenue, \
                             how = 'right')


<figure>
<center>
<img src='https://drive.google.com/uc?export=view&id=1593LzZWrxA2RCdDrH1ds7McRy6QjEGas' width="800" />
</center>
</figure>



In [99]:
df_combined_inner

Unnamed: 0,CampaignYear,ProductVersion,ProductPrice,Revenue
0,2016,v1,199,9473
1,2017,v1,199,8422
2,2018,v2,299,9987
3,2019,v2,299,7994
4,2020,v2,349,9530
5,2021,v3,349,9444



<figure>
<center><img src='https://drive.google.com/uc?export=view&id=1RiJacA5oIwrZXnCAaUyDo91QvsJgPMsh' width="800" />
<figcaption>Figura 1.6: Tabla que describe los diferentes tipos de joins</figcaption></center>
</figure>


<figure>
<center><img src='https://drive.google.com/uc?export=view&id=1a5xJ6oKnr_n_URmfl_tfNvIOg12sH5FL' width="800" />
<figcaption>Figura 1.7: Resultados de los DataFrames con diferentes tipos de joins</figcaption></center>
</figure>





## Manejo de datos faltantes  ##

Como analista de marketing, encontrará muchos datos con valores faltantes. Por ejemplo, supongamos que se une a una tabla de categorías de productos con una tabla de audiencia de anuncios. Al fusionar estos dos, es posible que no todas las categorías de productos tengan un valor correspondiente en la tabla de visualización de anuncios. Por ejemplo, si una empresa no publicó anuncios de ropa de invierno en países tropicales, faltarían los valores de esos productos en la tabla de visualización de anuncios. Estos casos son bastante comunes cuando se trata de datos del mundo real.

In [100]:
import pandas as pd
!rm -rf viewers.json
!curl https://raw.githubusercontent.com/limspiga/customer-analytics/main/week-1a/viewers.json -O
df = pd.read_json("viewers.json")
df

  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0100   262  100   262    0     0   1607      0 --:--:-- --:--:-- --:--:--  1607


Unnamed: 0,viewers,views,users,cost,Gender
0,Sushmita,31.2,Sushmita,2.0,F
1,Adam,17.9,Adam,20.0,M
2,Benny,265.23,Benny,15.0,M
3,Anurag,42.47,Anurag,,F


In [None]:
df = pd.read_json("viewers.json")
df = df.fillna(df.mean()) # promedio de cost
df

  df = df.fillna(df.mean()) # promedio de cost


Unnamed: 0,viewers,views,users,cost,Gender
0,Sushmita,31.2,Sushmita,2.0,F
1,Adam,17.9,Adam,20.0,M
2,Benny,265.23,Benny,15.0,M
3,Anurag,42.47,Anurag,12.333333,F


In [None]:
df = pd.read_json("viewers.json")
df=df.fillna(df.median()) # mediana de cost
df

  df=df.fillna(df.median()) # mediana de cost


Unnamed: 0,viewers,views,users,cost,Gender
0,Sushmita,31.2,Sushmita,2.0,F
1,Adam,17.9,Adam,20.0,M
2,Benny,265.23,Benny,15.0,M
3,Anurag,42.47,Anurag,15.0,F


In [None]:
df = pd.read_json("viewers.json")
df=df.dropna()
df

Unnamed: 0,viewers,views,users,cost,Gender
0,Sushmita,31.2,Sushmita,2.0,F
1,Adam,17.9,Adam,20.0,M
2,Benny,265.23,Benny,15.0,M


In [101]:
df = pd.read_json("viewers.json")
df = df.fillna(-1)
df

Unnamed: 0,viewers,views,users,cost,Gender
0,Sushmita,31.2,Sushmita,2.0,F
1,Adam,17.9,Adam,20.0,M
2,Benny,265.23,Benny,15.0,M
3,Anurag,42.47,Anurag,-1.0,F


In [None]:
df = pd.read_json("viewers.json")
df.isnull()

Unnamed: 0,viewers,views,users,cost,Gender
0,False,False,False,False,False
1,False,False,False,False,False
2,False,False,False,False,False
3,False,False,False,True,False


In [110]:
# Usando la función isna 
df = pd.read_json("viewers.json")
df[['cost']].isna #?



<bound method DataFrame.isna of    cost
0   2.0
1  20.0
2  15.0
3   NaN>

## Ejercicio 1.03: Combinación de DataFrames y manejo de valores perdidos ##

Como parte de su próxima campaña navideña, la empresa deseaba entender el costo de adquisición de clientes para un sitio web de comercio electrónico especializado en juguetes para niños. Como analista de marketing, ahora debe buscar en los registros históricos de la campaña anterior y sugerir el presupuesto de marketing para la campaña actual.

En este ejercicio, importará dos archivos CSV, timeSpent.csv y cost.csv, en los DataFrames df1 y df2. El DataFrame df1 tiene los detalles de los usuarios, junto con el tiempo que pasan en el sitio web. El df2 DataFrame consiste en el costo de adquisición de un usuario.

Combinará el DataFrame que contiene el tiempo dedicado por los usuarios con el otro DataFrame que contiene el costo de adquisición del usuario. Combinará ambos DataFrames para tener una idea del comportamiento del usuario.

In [111]:
import pandas as pd

# Load the CSV files into the DataFrames df1 and df2:
!curl https://raw.githubusercontent.com/limspiga/customer-analytics/main/week-1a/timeSpent.csv -O
!curl https://raw.githubusercontent.com/limspiga/customer-analytics/main/week-1a/cost.csv -O

df1 = pd.read_csv("timeSpent.csv") 
df2 = pd.read_csv("cost.csv")

# 3. Examinamos las primeras filas del primer DataFrame usando head()
df1.head()

  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
100    96  100    96    0     0    533      0 --:--:-- --:--:-- --:--:--   533
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
100    63  100    63    0     0    414      0 --:--:-- --:--:-- --:--:--   411


Unnamed: 0,users,timeSpent
0,Sushmita,31.266056
1,Adam,17.900529
2,Benny,265.236086
3,Anurag,42.470696


In [112]:
# 4. A continuación, observamos las primeras filas del segundo conjunto de datos:
df2.head()

Unnamed: 0,users,cost
0,Adam,20.0
1,Anurag,
2,Benny,15.0
3,Sushmita,2.0
4,Apoorva,7.0


In [113]:
# 5. Hacer una combinación izquierda de df1 con df2 y almacenar la salida en un DataFrame,
# df. Usar una combinación izquierda ya que solo nos interesan los usuarios que están gastando
# tiempo en el sitio web. Especifique la clave de unión como "users":
df = df1.merge(df2, on="users", how="left")
df

Unnamed: 0,users,timeSpent,cost
0,Sushmita,31.266056,2.0
1,Adam,17.900529,20.0
2,Benny,265.236086,15.0
3,Anurag,42.470696,


In [None]:
# Observará algunos valores faltantes (NaN) en el resultado anterior.
# Este tipo de escenarios son muy comunes, ya que es posible que no puedas capturar algunos
# detalles relacionados con los usuarios. Esto se puede atribuir al hecho de que
# algunos usuarios visitaron el sitio web de forma orgánica y, por lo tanto, el costo de adquisición
# es cero.
df = df.fillna(0)
df

Unnamed: 0,users,timeSpent,cost
0,Sushmita,31.266056,2.0
1,Adam,17.900529,20.0
2,Benny,265.236086,15.0
3,Anurag,42.470696,0.0


In [None]:
# Ahora, el DataFrame no tiene valores faltantes y puede calcular el promedio
# costo de adquisición junto con el tiempo promedio empleado.
# Para calcular el valor promedio, usará la función incorporada describe,
# que da las estadísticas de las columnas numéricas en el DataFrame.
df.describe()

Unnamed: 0,timeSpent,cost
count,4.0,4.0
mean,89.218342,9.25
std,117.7742,9.776673
min,17.900529,0.0
25%,27.924674,1.5
50%,36.868376,8.5
75%,98.162044,16.25
max,265.236086,20.0


De la captura de pantalla anterior, puede deducir que el costo promedio de adquisición de un usuario es **$9.25** y, en promedio, un usuario pasa alrededor de **89 segundos** en el sitio web. Basado en el tráfico que desea atraer para el próximo  temporada de vacaciones, ahora puede calcular el presupuesto de marketing utilizando la siguiente fórmula

    Presupuesto de marketing = Número de usuarios * Costo de adquisición

En este ejercicio, ha tratado con éxito los valores faltantes en sus datos. Hay en cuenta que manejar valores faltantes es más un arte que una ciencia y cada escenario puede ser diferente. En la siguiente sección, aprenderá cómo para aplicar funciones y operaciones en un DataFrame.

##  Aplicación de funciones y operaciones en tramas de datos ##

De forma predeterminada, las operaciones en todos los objetos pandas son por elementos y devuelven el mismo tipo de objetos pandas. Por ejemplo, mira el siguiente código:


In [None]:
# df= pd.DataFrame({'cities': [ ['Delhi','Numbai'],['Lucknow','Bhopal'], ['Chennai','Balgalore'], ['Kolkata','Hyderabad']], 
#                   'adult_viewers':[2500000, 3500000, 1600000, 200000],
#                   'aged_viewers':[2300000, 2800000, 2000000, 200000],
#                   'young_viewers':[2000000, 3000000, 1500000, 1500000],
#                   })
# df.head()

!curl https://raw.githubusercontent.com/limspiga/customer-analytics/main/week-1a/cities.json -O
df = pd.read_json('cities.json')
df

  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0100   312  100   312    0     0  16421      0 --:--:-- --:--:-- --:--:-- 16421


Unnamed: 0,cities,adult_viewers,aged_viewers,young_viewers
0,"[Delhi, Numbai]",2500000,2300000,2000000
1,"[Lucknow, Bhopal]",3500000,2800000,3000000
2,"[Chennai, Balgalore]",1600000,2000000,1500000
3,"[Kolkata, Hyderabad]",200000,200000,1500000


In [None]:
df['viewers']= df['adult_viewers'] + df['aged_viewers'] + df['young_viewers']
df

Unnamed: 0,cities,adult_viewers,aged_viewers,young_viewers,viewers
0,"[Delhi, Numbai]",2500000,2300000,2000000,6800000
1,"[Lucknow, Bhopal]",3500000,2800000,3000000,9300000
2,"[Chennai, Balgalore]",1600000,2000000,1500000,5100000
3,"[Kolkata, Hyderabad]",200000,200000,1500000,1900000


In [None]:
df['expected clicks'] = 0.03*df['viewers']
df

Unnamed: 0,cities,adult_viewers,aged_viewers,young_viewers,viewers,expected clicks
0,"[Delhi, Numbai]",2500000,2300000,2000000,6800000,204000.0
1,"[Lucknow, Bhopal]",3500000,2800000,3000000,9300000,279000.0
2,"[Chennai, Balgalore]",1600000,2000000,1500000,5100000,153000.0
3,"[Kolkata, Hyderabad]",200000,200000,1500000,1900000,57000.0


<figure>
<center><img src='https://drive.google.com/uc?export=view&id=1kN6JdGPzWyeDdJbAYKS1GvqqbS-RjvmJ' width="800" />
<figcaption>Figura 1.8: 
Funciones integradas utilizadas en pandas</figcaption></center>
</figure>



Para aplicar funciones integradas o personalizadas a pandas, puede utilizar mapas y aplicar funciones. Puede pasar cualquier función integrada, NumPy o personalizada como parámetros a estas funciones y se aplicarán a todos los elementos de la columna.

map: map ejecuta una función sobre cada valor presente en la columna. 


In [None]:
# df = pd.read_json("viewers.json")
# df

# df2= pd.DataFrame({'viewers': [ 'Sushmita', 'Adam', 'Benny', 'Anurag'], 
#                   'electronics':[42.470696, 31.266056, 265.236086, 17.900529],
#                   'food':[14.177886, 209.896774, 0.658621, 192.594603],
#                   'furniture':[77.557639, 107.488676, 112.095155, 152.935554],
#                   })
# df2.head()
# df_combined = pd.merge(df, df2)
# df_combined

# output = df_combined.to_json(orient = 'columns')
# print(output)
!curl https://raw.githubusercontent.com/limspiga/customer-analytics/main/week-1/viewers_complete.json -O
df = pd.read_json('viewers_complete.json')
df



  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0100   474  100   474    0     0   3917      0 --:--:-- --:--:-- --:--:--  3917


Unnamed: 0,viewers,views,users,cost,Gender,electronics,food,furniture
0,Sushmita,31.2,Sushmita,2.0,F,42.470696,14.177886,77.557639
1,Adam,17.9,Adam,20.0,M,31.266056,209.896774,107.488676
2,Benny,265.23,Benny,15.0,M,265.236086,0.658621,112.095155
3,Anurag,42.47,Anurag,,F,17.900529,192.594603,152.935554


In [None]:
df['Gender']=df['Gender'].map({"F":"Female","M":"Male"})
df

Unnamed: 0,viewers,views,users,cost,Gender,electronics,food,furniture
0,Sushmita,31.2,Sushmita,2.0,Female,42.470696,14.177886,77.557639
1,Adam,17.9,Adam,20.0,Male,31.266056,209.896774,107.488676
2,Benny,265.23,Benny,15.0,Male,265.236086,0.658621,112.095155
3,Anurag,42.47,Anurag,,Female,17.900529,192.594603,152.935554


apply: Aplica la función al objeto pasado y devuelve un DataFrame. Puede tomar fácilmente varias columnas como entrada. También acepta el parámetro eje, dependiendo de cómo se vaya a aplicar la función. Por ejemplo, supongamos que en el siguiente DataFrame desea sumar todas las compras realizadas por el usuario en las diferentes categorías y almacenar la suma en una nueva columna:

In [None]:
df['purchase'] = df[['electronics','food','furnitu  re']].apply(np.sum,axis=1)
df

Unnamed: 0,viewers,views,users,cost,Gender,electronics,food,furniture,purchase
0,Sushmita,31.2,Sushmita,2.0,Female,42.470696,14.177886,77.557639,134.206221
1,Adam,17.9,Adam,20.0,Male,31.266056,209.896774,107.488676,348.651506
2,Benny,265.23,Benny,15.0,Male,265.236086,0.658621,112.095155,377.989862
3,Anurag,42.47,Anurag,,Female,17.900529,192.594603,152.935554,363.430686


En la captura de pantalla anterior, puede ver que se crea una nueva columna, compra, que es la suma de las columnas de productos electrónicos, alimentos y muebles.

## Grouping Data ##

Supongamos, según ciertas condiciones, que desea aplicar una función a varias filas de un DataFrame. Por ejemplo, es posible que deba hacerlo cuando desee calcular la suma de los precios de los productos por separado para cada moneda. La forma Pythonic de resolver este problema es dividir el DataFrame en la(s) clave(s) que desea agregar y luego aplicar su función a ese grupo, almacenar los valores y pasar al siguiente grupo. pandas proporciona una mejor manera de hacer esto, utilizando la función groupby.

In [114]:
!curl https://raw.githubusercontent.com/limspiga/customer-analytics/main/week-1a/viewers_complete.json -O
df = pd.read_json('viewers_complete.json')
df

  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0100   474  100   474    0     0   2521      0 --:--:-- --:--:-- --:--:--  2521


Unnamed: 0,viewers,views,users,cost,Gender,electronics,food,furniture
0,Sushmita,31.2,Sushmita,2.0,F,42.470696,14.177886,77.557639
1,Adam,17.9,Adam,20.0,M,31.266056,209.896774,107.488676
2,Benny,265.23,Benny,15.0,M,265.236086,0.658621,112.095155
3,Anurag,42.47,Anurag,,F,17.900529,192.594603,152.935554


In [115]:
df.groupby('Gender')['cost'].sum()

Gender
F     2.0
M    35.0
Name: cost, dtype: float64

## Ejercicio 1.04: Aplicar transformaciones de datos ##

En el **Ejercicio 1.01**, Carga de datos almacenados de archivo JSON  que contenía los detalles de los usuarios de una aplicación de compras. Validar si los datos se cargaron correctamente y proporcionar algunas respuestas sobre la información contenida en ellos.

- ¿Cuál es la edad promedio de los usuarios?
- ¿Cuál es la fruta favorita de los usuarios?
- ¿Tienen más clientes las mujeres?
- ¿Cuántos de los usuarios están activos?

In [116]:
# 1. Importe el módulo pandas usando el siguiente comando:
import pandas as pd

In [None]:
# 2. Lea el archivo user_info.json en un DataFrame de pandas, user_info, usando el siguiente comando:
!curl https://raw.githubusercontent.com/limspiga/customer-analytics/main/week-1a/user_info.json -O
user_info = pd.read_json('user_info.json')

In [None]:
# 3. Ahora, examine si sus datos se cargaron correctamente al verificar los primeros valores en el DataFrame. 
# Haz esto usando el comando head():
user_info.head()

In [None]:
# 4. Ahora, mire los atributos y los datos dentro de ellos usando el siguiente comando:
user_info.info()

In [121]:
# Ahora, comencemos a responder las preguntas:
# ¿Cuál es la edad promedio de los usuarios? Para encontrar la edad promedio,
# use el siguiente código:
user_info['age'].mean()

27.833333333333332

In [122]:
# ¿Cuál es la fruta favorita de los usuarios? Para responder a esta pregunta,
# puede usar la función groupby en la columna de frutas favoritas y obtener un conteo de usuarios con el siguiente código:
user_info.groupby('favoriteFruit')['_id'].count()

favoriteFruit
apple         3
strawberry    3
Name: _id, dtype: int64

In [123]:
# ¿Cuántos de los usuarios están activos? Similar a las preguntas anteriores,
# puede usar la función groupby en la columna isActive para encontrar la respuesta.
# Utilice el siguiente código:
user_info.groupby('isActive')['_id'].count()

isActive
False    3
True     3
Name: _id, dtype: int64

Este ejercicio actúa como una breve introducción para aplicar transformaciones de datos, funciones y obtener una descripción general de la agregación, que puede ser útil durante la fase exploratoria de un proyecto.

## Actividad 1.01: Abordar el spilling (derrame) de datos ##

Los datos que recibimos en la mayoría de los casos no están limpios. Habrá problemas como valores faltantes, tipos de datos incorrectos, datos que no se cargaron correctamente en las columnas y más. Como analista de marketing, deberá limpiar estos datos y presentarlos en un formato utilizable para que pueda analizarlos más a fondo y extraer información útil.

En esta actividad, ahora resolverá el problema que se encontró en Ejercicio 1.02, Carga de datos de múltiples fuentes. Comenzará cargando sales.csv, que contiene algunos datos históricos de ventas sobre diferentes compras de clientes en las tiendas en los últimos años. Como recordará, los datos cargados en DataFrame no eran correctos ya que los valores de algunas columnas se completaban incorrectamente en otras columnas. El objetivo de esta actividad es limpiar el DataFrame y convertirlo en una forma utilizable.

In [None]:
# Importar el módulo pandas.

# Cargar los datos de sales.csv en un DataFrame separado, llamado sales, y
# mirar las primeras filas del DataFrame generado.

# Debería obtener el siguiente resultado:

<figure>
<center><img src='https://drive.google.com/uc?export=view&id=1rn15s2_ujUvQYup3HkJr6r1o0L6PrhJL' width="800" />
<figcaption>Figura 1.8: 
Funciones integradas utilizadas en pandas</figcaption></center>
</figure>


In [None]:
# 3. Analizar el tipo de datos de los campos.

# 4. Revisar la primera columna. Si el valor de la columna coincide con los valores esperados,
# pase a la siguiente columna o arreglarlo con el valor correcto.

# 5. Una vez que haya fijado la primera columna, examine las otras columnas una
# por una e intente determinar si los valores son correctos.


Una vez que haya limpiado el DataFrame, el resultado final debería aparecer de la siguiente manera:

<figure>
<center><img src='https://drive.google.com/uc?export=view&id=1nOouhwjM65qpSDlZBIg9fXDXieKE28Va' width="800" />
<figcaption>Figura 1.9: 
Funciones integradas utilizadas en pandas</figcaption></center>
</figure>

