# Visualización de datos a través de estratos

Trabajaremos con el conjunto de datos de Google Play Store Apps alojado en googleplaystore.csv. Su tarea es crear una visualización con:

## Pasos pricipales.

Descargue el conjunto de datos googleplaystore.csv y formatéelo como un pandas DataFrame

In [1]:
import pandas as pd

In [2]:
url='https://raw.githubusercontent.com/lihkir/Uninorte/main/AppliedStatisticMS/DataVisualizationRPython/Lectures/Python/PythonDataSets/googleplaystore.csv'
google_PS_df = pd.read_csv(url, sep=',')
google_PS_df.head()

Unnamed: 0,App,Category,Rating,Reviews,Size,Installs,Type,Price,Content Rating,Genres,Last Updated,Current Ver,Android Ver
0,Photo Editor & Candy Camera & Grid & ScrapBook,ART_AND_DESIGN,4.1,159,19M,"10,000+",Free,0,Everyone,Art & Design,"January 7, 2018",1.0.0,4.0.3 and up
1,Coloring book moana,ART_AND_DESIGN,3.9,967,14M,"500,000+",Free,0,Everyone,Art & Design;Pretend Play,"January 15, 2018",2.0.0,4.0.3 and up
2,"U Launcher Lite – FREE Live Cool Themes, Hide ...",ART_AND_DESIGN,4.7,87510,8.7M,"5,000,000+",Free,0,Everyone,Art & Design,"August 1, 2018",1.2.4,4.0.3 and up
3,Sketch - Draw & Paint,ART_AND_DESIGN,4.5,215644,25M,"50,000,000+",Free,0,Teen,Art & Design,"June 8, 2018",Varies with device,4.2 and up
4,Pixel Draw - Number Art Coloring Book,ART_AND_DESIGN,4.3,967,2.8M,"100,000+",Free,0,Everyone,Art & Design;Creativity,"June 20, 2018",1.1,4.4 and up


Información del dataset:

In [11]:
google_PS_df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 9360 entries, 0 to 10840
Data columns (total 13 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   App             9360 non-null   object 
 1   Category        9360 non-null   object 
 2   Rating          9360 non-null   float64
 3   Reviews         9360 non-null   object 
 4   Size            9360 non-null   object 
 5   Installs        9360 non-null   object 
 6   Type            9360 non-null   object 
 7   Price           9360 non-null   object 
 8   Content Rating  9360 non-null   object 
 9   Genres          9360 non-null   object 
 10  Last Updated    9360 non-null   object 
 11  Current Ver     9360 non-null   object 
 12  Android Ver     9360 non-null   object 
dtypes: float64(1), object(12)
memory usage: 1023.8+ KB


El data set cuenta con 12 columnas que en su mayoria son descritivas, la unica columna con datos numericos es 'Rating'.

Descripción de variables:

- **App:** Nombre de la aplicación.
- **Category:** Categoría a la que pertenece la aplicación (ej. Juegos, Educación, Finanzas, etc.).
- **Rating:** Calificación promedio de la aplicación (generalmente en una escala de 1 a 5).
- **Reviews:** Número de reseñas que ha recibido la aplicación.
- **Size:** Tamaño de la aplicación (por ejemplo, en MB o GB).
- **Installs:** Número aproximado de veces que se ha instalado la aplicación.
- **Type:** Si la aplicación es gratuita o de pago.
- **Price:** Precio de la aplicación (si es de pago).
- **Content Rating:** Clasificación de contenido de la aplicación (ej. Para todos, Adolescentes, Adultos, etc.).
- **Genres:** Géneros asociados a la aplicación (puede ser similar a la categoría).
- **Last Updated:** Fecha de la última actualización de la aplicación.
- **Current Ver:** Versión actual de la aplicación.
- **Android Ver:** Versión mínima de Android requerida para ejecutar la aplicación.

### Elimina las entradas del DataFrame que tienen valores de característica de NA.

In [3]:
google_PS_df.isna().sum()

App                  0
Category             0
Rating            1474
Reviews              0
Size                 0
Installs             0
Type                 1
Price                0
Content Rating       1
Genres               0
Last Updated         0
Current Ver          8
Android Ver          3
dtype: int64

In [8]:
google_PS_df=google_PS_df.dropna()

In [9]:
google_PS_df.isna().sum()

App               0
Category          0
Rating            0
Reviews           0
Size              0
Installs          0
Type              0
Price             0
Content Rating    0
Genres            0
Last Updated      0
Current Ver       0
Android Ver       0
dtype: int64

### Cree el gráfico de barras necesario del número de aplicaciones en cada categoría Content Rating.

In [25]:
import altair as alt
import pandas as pd
alt.data_transformers.enable("vegafusion")
#df_sampled = google_PS_df(n=5000)
#pip install "vegafusion[embed]>=1.4.0"


DataTransformerRegistry.enable('vegafusion')

In [26]:
alt.Chart(google_PS_df).mark_bar().encode(
    x = 'Content Rating:N',
    y = 'count():Q'
).properties(width=350)

In [31]:
content_rating_counts = google_PS_df['Content Rating'].value_counts()
content_rating_counts

Content Rating
Everyone           7414
Teen               1084
Mature 17+          461
Everyone 10+        397
Adults only 18+       3
Unrated               1
Name: count, dtype: int64

En la gráfica se logra identificar que la mayoría de aplicaciones tiene una clasificación para todo el público, en segundo lugar contenido para adolescentes, en tercer lugar contenido para mayores de 17 años, en uno de los últimos lugares contenido para todo público mayor a 10 años y una categoría muy baja para adultos mayores de 18 y una sin clasificación.

### Cree el mapa de calor necesario indicando el número de aplicaciones en la app en rangos Category y Rating.

In [49]:
alt.Chart(google_PS_df).mark_bar().encode(
    x = 'Category:N',
    y = 'count():Q'
).properties(width=350)

In [71]:
alt.Chart(google_PS_df).mark_rect().encode(
    x='Rating:O',
    y='Category:N',
    color='count()',
    tooltip=['Category','Rating',alt.Tooltip('count()', title='Número de aplicaciones en la app')]
).properties(
    width=600,
    height=400
)


En la gráfica mapa de calor se logra identificar que la mayoria de las aplicaciones tiene una calificación alta, sin embargo las aplicaciones con mayores calificaciones estan concentradas en la categoria familiar, juegos y tools, no obstante hay una concentración de aplicaciones con una buena calificación de Photgraphy, Productivity, Shopping, Social y Sport.

### Combine el código del gráfico de barras y del mapa de calor y cree una visualización con ambos gráficos vinculados dinámicamente entre sí.

In [114]:
selected_CR = alt.selection(type="single", encodings=['x'])

heatmap = alt.Chart(google_PS_df).mark_rect().encode(
    alt.X('Rating:O'),#, bin=True),
    alt.Y('Category:N'),#, bin=True),
    alt.Color('count()', scale = alt.Scale(scheme = 'greenblue'), legend = alt.Legend(title = 'Total Countries')),
    alt.Tooltip('count()', title='Número de aplicaciones en la app')
).properties(
    width=600,
    height=400
)

   Use 'selection_point()' or 'selection_interval()' instead; these functions also include more helpful docstrings.
        combined and should be specified using "selection_point()".


In [115]:
circles = heatmap.mark_point().encode(
    alt.ColorValue('grey'),
    alt.Size('count()', legend = alt.Legend(title='Records in Selection'))
).transform_filter(
    selected_CR
)

In [116]:
bars = alt.Chart(google_PS_df).mark_bar().encode(
    x = 'Content Rating:N',
    y = 'count():Q'
).properties(width=350)

bars = alt.Chart(google_PS_df).mark_bar().encode(
    x = 'Content Rating:N',
    y = 'count()',
    color = alt.condition(selected_CR, alt.ColorValue("steelblue"), alt.ColorValue("grey"))
).properties(
    width=350
).add_selection(selected_CR)

heatmap + circles | bars



El en gráfico anterior se muestran los dos gráficos descritos con anterioridad. EN la primera el número de aplicaciones por categoría y en el segundo el número de aplicaciones por categoría y rating.  