# **Bootcamp Ciencia de Datos e Inteligencia Artificial**
# **Proyecto Módulo 1. Python para Ciencia de Datos**



## Introducción

Has aprendido lo más elemental en tu camino para convertirte en un científico de datos y estás preparado para afrontar una de las actividades más comunes del trabajo cotidiano de un _data scientist_; es decir, revisar y analizar información solicitada por algún cliente.  

Este proyecto representa un desafío que tomará algo de tiempo, de manera que necesitarás mucha concentración y persistencia; sin embargo, eres completamente capaz de resolverlo. Así, en cuestión de semanas notarás la facilidad con que realizas este tipo de actividades.

## Demo

Este documento te servirá como inspiración para crear el tuyo: https://drive.google.com/file/d/1HH_aauW-84bnoBcooZtT7hRN4bFT5uB8/view?usp=sharing

## ¿Qué construirás?

Un documento de Google Colaboratory que funja como introducción a las actividades más comunes de tu labor cotidiana. Considera que este trabajo se convertirá en una guía para los módulos siguientes, dado que practicarás las habilidades básicas necesarias para implementar un modelo.

## Objetivos

El participante:

- Se familiarizará con la estructura del lenguaje **Python** enfocada en la ciencia de datos.
- Comprenderá que cada proyecto solicitado poseerá distintas características (gráficos de un cierto tipo o diseño, algunos datos estadísticos, entre otros).
- Entenderá que algunos datos se interpretan mejor al utilizar determinadas herramientas, tales como **Pandas**, **Numpy** y **Matplotlib**.
- Asimilará la manera de estructurar la información que requiera analizar.

## Requisitos

- El proyecto se entregará en forma individual.
- Cada participante deberá completar el archivo de **Google Colab** ubicado en su **Google Drive** personal. Al finalizar, compartirá el enlace en el espacio designado en **Teams**.

## Entregables

Cada participante hará una copia del presente documento y la guardará en su **Google Drive** personal.

Leerá cada una de las preguntas y responderá utilizando bloques de código (a excepción de la pregunta 7, que podrá responderse con un bloque de texto).

Los resultados deberán ser inteligibles y se recomienda utilizar funciones como `print` para dar claridad a las respuestas.

Es posible investigar soluciones en otras fuentes o recurrir a clases anteriores; sin embargo, el estudiante debe comprender lo escrito en código.

Algunas respuestas tienen diversas formas de resolverse, no obstante, debe existir precisión en el código escrito y en el propósito que persigue.

¡Comencemos!


In [None]:
from google.colab import drive
drive.mount('/content/drive')

In [3]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt #No quitar

### Pregunta 1
Descarga los siguientes archivos:
- Este archivo csv enlista diferentes celulares y una serie de calificaciones de distintos usuarios: https://drive.google.com/file/d/1atasE-fuDyAt8Z7JGZQroKJwjNkbpyrn/view?usp=sharing
- Este documento csv incluye un listado de las marcas de dichos teléfonos celulares: https://drive.google.com/file/d/1ICBvPkSVajVVMHyrMABYiwuwefv_3oPJ/view?usp=sharing

Sube estos archivos en un **Google Drive** y con `pd.read_csv` nómbralos como `df_modelos` y `df_marcas`.

Indica en un solo código el número de filas que tiene el archivo `df_modelos` que creaste.



In [4]:
df_modelos = pd.read_csv('/Users/andreblass/Documents/Python/Ucamp/Modelos.csv', encoding='latin1')

In [6]:
df_marcas = pd.read_csv('/Users/andreblass/Documents/Python/Ucamp/Marcas.csv')

In [7]:
df_marcas.head()


Unnamed: 0,ID Marca,Nombre Marca
0,1,Apple
1,2,I Kall
2,3,Infinix
3,4,Lava
4,5,Motorola


In [8]:
df_modelos.head()


Unnamed: 0,ID Marca,Modelo,RAM_GB,ROM_GB,Calificaciones,Reseas,Estrellas,Precio de lista,Precio de venta
0,10,"Redmi 8 (Onyx Black, 64 GB)",4,64,674638,50064,4.4,10999,9999
1,9,"Realme 5i (Forest Green, 64 GB)",4,64,243106,16497,4.5,10999,10999
2,9,"Realme 5i (Aqua Blue, 64 GB)",4,64,243106,16497,4.5,10999,10999
3,10,"Redmi 8 (Sapphire Blue, 64 GB)",4,32,674638,50064,4.4,10999,9999
4,8,"POCO X2 (Matrix Purple, 128 GB)",6,64,133486,14732,4.5,19999,18499


### Pregunta 2
Haz un `merge` de ambos **data frames**, para generar un nuevo **data frame** que incluya los datos de `df_modelos` y `df_marcas`. Tu nuevo **data frame** recibirá el nombre de `df`.

**Pista**: Ambos archivos tienen una columna que los relaciona, llamada `ID Marca`.

In [9]:
df = pd.merge(df_modelos, df_marcas, how = 'right', on = 'ID Marca')
df

Unnamed: 0,ID Marca,Modelo,RAM_GB,ROM_GB,Calificaciones,Reseas,Estrellas,Precio de lista,Precio de venta,Nombre Marca
0,1,"Apple iPhone XR (Black, 64 GB)",0,32,11572,975,4.6,52500,46999,Apple
1,1,"Apple iPhone SE (White, 64 GB)",0,64,12954,1298,4.5,42500,40999,Apple
2,1,"Apple iPhone SE (Black, 64 GB)",0,32,12954,1298,4.5,42500,40999,Apple
3,1,"Apple iPhone XR ((PRODUCT)RED, 64 GB)",0,64,11572,975,4.6,52500,46999,Apple
4,1,"Apple iPhone SE (Red, 64 GB)",0,128,12954,1298,4.5,42500,40999,Apple
...,...,...,...,...,...,...,...,...,...,...
115,12,"Vivo Y91i (Fusion Black, 32 GB)",2,128,21196,1445,4.3,9990,7990,Vivo
116,12,"Vivo Y91i (Ocean Blue, 32 GB)",2,128,21196,1445,4.3,9990,7990,Vivo
117,12,"Vivo S1 Pro (Mystic Black, 128 GB)",8,128,11571,891,4.4,20990,19990,Vivo
118,12,"Vivo Y30 (Emerald Black, 128 GB)",4,32,604,44,4.3,18990,14990,Vivo


### Pregunta 3
Muestra las primeras cinco filas, las últimas cinco y el nombre de todas las columnas.

In [10]:
df.head(5)

Unnamed: 0,ID Marca,Modelo,RAM_GB,ROM_GB,Calificaciones,Reseas,Estrellas,Precio de lista,Precio de venta,Nombre Marca
0,1,"Apple iPhone XR (Black, 64 GB)",0,32,11572,975,4.6,52500,46999,Apple
1,1,"Apple iPhone SE (White, 64 GB)",0,64,12954,1298,4.5,42500,40999,Apple
2,1,"Apple iPhone SE (Black, 64 GB)",0,32,12954,1298,4.5,42500,40999,Apple
3,1,"Apple iPhone XR ((PRODUCT)RED, 64 GB)",0,64,11572,975,4.6,52500,46999,Apple
4,1,"Apple iPhone SE (Red, 64 GB)",0,128,12954,1298,4.5,42500,40999,Apple


In [33]:
df_modelos.tail(5)

Unnamed: 0,ID Marca,Modelo,RAM_GB,ROM_GB,Calificaciones,Reseas,Estrellas,Precio de lista,Precio de venta
115,4,Lava 34 Plus,32,32,361,34,4.1,1699,1699
116,9,"Realme 6 (Comet Blue, 128 GB)",6,128,30622,3002,4.4,16999,16999
117,9,"Realme 6 Pro (Lightning Orange, 128 GB)",8,128,14361,1671,4.4,19999,19999
118,2,I Kall K14 New,32,64,7229,822,3.4,609,609
119,1,"Apple iPhone XR (White, 64 GB)",0,64,11572,975,4.6,52500,46999


In [11]:
df_modelos.columns

Index(['ID Marca', 'Modelo', 'RAM_GB', 'ROM_GB', 'Calificaciones', 'Reseas',
       'Estrellas', 'Precio de lista', 'Precio de venta'],
      dtype='object')

### Pregunta 4
Utiliza los filtros para mostrar todos los teléfonos con 64GB en la columna `ROM_GB` e indica cuántos del listado poseen esta característica.

In [15]:
df_modelos[df_modelos['ROM_GB'] == '64']

Unnamed: 0,ID Marca,Modelo,RAM_GB,ROM_GB,Calificaciones,Reseas,Estrellas,Precio de lista,Precio de venta


### Pregunta 5
Haz un histograma (`hist`) de la columna `ROM_GB` del **data frame** `df`.

El gráfico debe incluir un título y las columnas tener un color personalizado.

### Pregunta 6
Haz un diagrama de dispersión (`scatter`) con las siguientes características: el eje X deberá indicar el contenido de la columna `Precio de lista`, mientras que el eje Y expresará el contenido de la columna `Precio de venta`.

El diagrama debe incluir un título y los puntos tener un color personalizado.

### Pregunta 7

Con base en el diagrama de la **pregunta 6**, responde la siguiente pregunta: ¿A qué conclusión podrías llegar si observas únicamente la gráfica?

### Pregunta 8
Utiliza el código para obtener la siguiente información (ubicada en `df`).

- Promedio de los precios de venta de los modelos marca **Realme**
- Máximo de estrellas de los modelos marca **Redmi**
- Mínimo de Estrellas de los modelos marca **Redmi**

### Pregunta 9
Utiliza un **Groupby** para mostrar la cantidad de estrellas promedio que cada marca tiene en `df`.

### Pregunta 10
¿Qué otro dato puedes obtener de `df` y cómo lo extraerías?