# Ejercicio: Data input, output e iteración

En esta primera parte, aprenderemos a:

* Descargar ficheros y renombrarlos por comandos de Linux (mucho más eficiente que recurrir a librerías de Python). Esta será una práctica a la que nos iremos habituando a lo largo del curso.
* Leer y escribir ficheros en formato `csv` con la librería `pandas`.
* Iterar sobre las filas de un objeto `pd.DataFrame`.

En lo relativo a la primera parte, para la descarga emplearemos el comando `wget` seguido de la URL en cuestión. Para la segunda parte, usaremos la estructura `mv <source>  <destination>`:

```bash
# Descargamos un fichero csv
!wget https://www.stats.govt.nz/assets/Uploads/Gross-domestic-product/Gross-domestic-product-December-2021-quarter/Download-data/gross-domestic-product-December-2021-quarter-csv.csv
# Lo renombramos para que sea más sencillo acceder a él
!mv /content/gross-domestic-product-December-2021-quarter-csv.csv /content/dataset.csv
```

Cuando trabajamos en notebooks, es más cómodo guardar la URL como un enlace, y posteriormente la librería `pandas` se encarga por nosotros de importarlo:

In [1]:
# Descargamos un fichero csv
URL_data='https://www.stats.govt.nz/assets/Uploads/Gross-domestic-product/Gross-domestic-product-December-2021-quarter/Download-data/gross-domestic-product-December-2021-quarter-csv.csv'

Seguidamente, procedemos a leerlo:

In [2]:
# Librerías
import os
import pandas as pd
# Leemos archivo
df = pd.read_csv(URL_data)

Es conveniente hacer uso de la librería `os`, ya que a bajo nivel nos gestiona cuál es nuestro directorio activo actual (`os.getcwd()`) y nos permite fácilmente concatenar rutas para encontrar archivos (`os.path.join()`).

Veamos ahora cómo realizar iteraciones. En `pandas` existen esencialmente dos métodos para ello:

* `iterrows`: Enlace a [documentación](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.iterrows.html).
* `itertuples`: Enlace a [documentación](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.itertuples.html).

Tu objetivo será analizar la documentación e implementar un bucle donde se itere sobre las filas del `DataFrame` dejando un sencillo `pass` dentro del bucle, con el decorador `%%timeit` para evaluar qué método es más rápido. A continuación se muestra un ejemplo:

```python
%%timeit
for elem in [1,2,3,4,5]:
    pass
```

* Método iterrows:

In [None]:
%%timeit


1 loop, best of 5: 3.28 s per loop


*Tipo de respuesta esperada:*

```python
1 loop, best of 5: 3.28 s per loop
```

* Método `itertuples` por defecto:

In [None]:
%%timeit


1 loop, best of 5: 117 ms per loop


*Tipo de respuesta esperada:*

```python
1 loop, best of 5: 117 ms per loop
```

* Método `itertuples` sin contener los índices:

In [None]:
%%timeit


*Tipo de respuesta esperada:*

```python
10 loops, best of 5: 118 ms per loop
```

# Ejercicio Ecommerce

En este ejercicio, se proporcionan datos ficticios sobre compras realizadas por Amazon, por lo que es posible que exista alguna incoherencia en los datos. Se trata de ir realizando cada uno de los ejercicios propuestos progresivamente. Hay más de una forma de hacerlos, y todos se pueden responder con una línea.

El enlace es:

```python
URL_data = 'https://raw.githubusercontent.com/MatinMasimli/DataScience_ML_Udemy_Exercises/master/Ecommerce_purchases/Ecommerce%20Purchases.csv'
```

In [10]:
URL_data = 'https://raw.githubusercontent.com/MatinMasimli/DataScience_ML_Udemy_Exercises/master/Ecommerce_purchases/Ecommerce%20Purchases.csv'


Cargamos la librería pandas como 'pd' y numpy como 'np':

In [44]:
# instalacion librerias
!pip install pandas
!pip install numpy




[notice] A new release of pip is available: 23.0.1 -> 24.2
[notice] To update, run: python.exe -m pip install --upgrade pip





[notice] A new release of pip is available: 23.0.1 -> 24.2
[notice] To update, run: python.exe -m pip install --upgrade pip


In [11]:
import numpy as np
import pandas as pd

In [14]:
df = pd.read_csv(URL_data)

 ### Guardar en carpeta data
 

In [59]:
df.to_csv(r'C:\Users\sergi\OneDrive\Escritorio\Bootcamp_DataAnalyst\Temario\Ejercicio_Ecomerce\data\purchases.csv', index=False)

Ahora, leemos el DataFrame y mostramos sus cinco primeras filas:

In [47]:
df.head()


Unnamed: 0,Address,Lot,AM or PM,Browser Info,Company,Credit Card,CC Exp Date,CC Security Code,CC Provider,Email,Job,IP Address,Language,Purchase Price
0,"16629 Pace Camp Apt. 448\nAlexisborough, NE 77...",46 in,PM,Opera/9.56.(X11; Linux x86_64; sl-SI) Presto/2...,Martinez-Herman,6011929061123406,02/20,900,JCB 16 digit,pdunlap@yahoo.com,"Scientist, product/process development",149.146.147.205,el,98.14
1,"9374 Jasmine Spurs Suite 508\nSouth John, TN 8...",28 rn,PM,Opera/8.93.(Windows 98; Win 9x 4.90; en-US) Pr...,"Fletcher, Richards and Whitaker",3337758169645356,11/18,561,Mastercard,anthony41@reed.com,Drilling engineer,15.160.41.51,fr,70.73
2,Unit 0065 Box 5052\nDPO AP 27450,94 vE,PM,Mozilla/5.0 (compatible; MSIE 9.0; Windows NT ...,"Simpson, Williams and Pham",675957666125,08/19,699,JCB 16 digit,amymiller@morales-harrison.com,Customer service manager,132.207.160.22,de,0.95
3,"7780 Julia Fords\nNew Stacy, WA 45798",36 vm,PM,Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_0 ...,"Williams, Marshall and Buchanan",6011578504430710,02/24,384,Discover,brent16@olson-robinson.info,Drilling engineer,30.250.74.19,es,78.04
4,"23012 Munoz Drive Suite 337\nNew Cynthia, TX 5...",20 IE,AM,Opera/9.58.(X11; Linux x86_64; it-IT) Presto/2...,"Brown, Watson and Andrews",6011456623207998,10/25,678,Diners Club / Carte Blanche,christopherwright@gmail.com,Fine artist,24.140.33.94,es,77.82


¿Qué dimensiones tienen nuestros datos?

In [48]:
df.shape

(10000, 14)

*Respuesta esperada:*

```python
(10000,14)
```

¿Cuál es el precio medio de compra?

In [49]:
df.columns


Index(['Address', 'Lot', 'AM or PM', 'Browser Info', 'Company', 'Credit Card',
       'CC Exp Date', 'CC Security Code', 'CC Provider', 'Email', 'Job',
       'IP Address', 'Language', 'Purchase Price'],
      dtype='object')

In [123]:
df['Purchase Price'].mean().round(2)

np.float64(50.35)

*Respuesta esperada:*

```python
50.34730200000025
```

Cuáles fueron, respectivamente, los precios mayores y menores de compra?

In [52]:
df['Purchase Price'].max()

np.float64(99.99)

*Respuesta esperada:*

```python
99.989999999999995
```

In [55]:
df['Purchase Price'].min()

np.float64(0.0)

*Respuesta esperada:*

```python
0.0
```

¿Cuánta gente tiene indicado como inglés (valor 'en') el idioma preferente?

In [81]:
df['Language'].value_counts()['en']

np.int64(1098)

*Respuesta esperada:*

```python
1098
```

¿Cuánta gente dispone del título profesional `'Lawyer'`?


In [83]:
df['Job'].value_counts()

Job
Interior and spatial designer        31
Lawyer                               30
Social researcher                    28
Designer, jewellery                  27
Research officer, political party    27
                                     ..
Music therapist                       7
Actuary                               6
Editor, film/video                    6
Information systems manager           5
Investment analyst                    5
Name: count, Length: 623, dtype: int64

In [124]:
df['Job'].value_counts()['Lawyer']

np.int64(30)

*Respuesta esperada:*

```python
30
```

¿Cuántas personas hicieron compras durante la mañana, y cuántas durante la tarde?

*(Pista: Use [value_counts()](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.value_counts.html))*

In [85]:
df['AM or PM'].value_counts()

AM or PM
PM    5068
AM    4932
Name: count, dtype: int64

*Respuesta esperada:*

```python
PM    5068
AM    4932
Name: AM or PM, dtype: int64
```

¿Cuáles son las cinco profesiones más habituales?

In [87]:
df['Job'].value_counts().head(5)

Job
Interior and spatial designer        31
Lawyer                               30
Social researcher                    28
Designer, jewellery                  27
Research officer, political party    27
Name: count, dtype: int64

*Respuesta esperada:*

```python
Interior and spatial designer    31
Lawyer                           30
Social researcher                28
Purchasing manager               27
Designer, jewellery              27
Name: Job, dtype: int64
```

Algún usuario hizo una compra que vino en el lote `90 WT`. ¿Cuál fue el precio de esa transacción?

In [125]:
df[df['Lot'] == '90 WT']['Purchase Price']

513    75.1
Name: Purchase Price, dtype: float64

*Respuesta esperada:*

```python
513    75.1
Name: Purchase Price, dtype: float64
```

¿Cuál es el email de la persona con tarjeta de crédito `4926535242672853`?

In [126]:
df[df['Credit Card'] == 4926535242672853]['Email']


1234    bondellen@williams-garza.com
Name: Email, dtype: object

*Respuesta esperada:*

```python
1234    bondellen@williams-garza.com
Name: Email, dtype: object
```

¿Cuánta gente tiene `American Express` como proveedor de crédito e hizo una compra superior a `$95`?

In [127]:
df[(df['CC Provider'] == 'American Express') & (df['Purchase Price'] > 95)].shape[0]

39

*Respuesta esperada:*

```python
39
```

¿Cuánta gente tiene una tarjeta de crédito que expira en 2025?

In [121]:
df['CC Exp Date']

0       02/20
1       11/18
2       08/19
3       02/24
4       10/25
        ...  
9995    03/22
9996    07/25
9997    05/21
9998    11/17
9999    02/19
Name: CC Exp Date, Length: 10000, dtype: object

In [128]:
def expiration_year(x):
    return x.split('/')[1]

df['CC Exp Date'].apply(expiration_year).value_counts()




CC Exp Date
25    1033
23    1010
21    1006
22     996
18     995
19     995
24     992
20     988
17     955
26     654
16     376
Name: count, dtype: int64

*Respuesta esperada:*

```python
1033
```

¿Cuáles fueron los cinco *email hosts* más populares (e.g., gmail, yahoo,...)?

In [129]:
df['Email'].apply(lambda x: x.split('@')[1]).value_counts().head(5)

Email
hotmail.com     1638
yahoo.com       1616
gmail.com       1605
smith.com         42
williams.com      37
Name: count, dtype: int64

*Respuesta esperada:*

```python
hotmail.com     1638
yahoo.com       1616
gmail.com       1605
smith.com         42
williams.com      37
Name: Email, dtype: int64
```