</center><img src="https://www3.um.edu.uy/logoum.jpg" width=300></center>
<h1 align="center">Introducción a la Ciencia de Datos</h1>
<h2 align="center"> <font color='gray'>Práctico 0: Introducción a Jupyter y operaciones con tablas</font></h2>

### <font color='289C4E'>Tabla de contenidos<font><a class='anchor' id='inicio'></a>
- [Importe las librerías necesarias](#0)
- [Leer archivos CSV (Comma Separated Value)](#1)
- [Dimensión del dataframe](#2)
- [Selección de columnas](#3)
- [Establecer columna índice](#4)
- [Conteo de datos únicos](#5)
- [Visualizar datos únicos](#6)
- [Determinar el tipo de datos](#7)
- [Filtros](#8)
- [Group by](#9)
- [Merge](#10)
- [Mapas geográficos](#11)
- [Operaciones con tablas usando MovieLens 100k](#12)
- [Timestamps](#13)
- [Merge](#14)
- [Manipulación de formatos de fecha](#15)
- [Pivot](#16)
    
Al finalizar este práctico usted aprenderá a:
- Manipular tablas.
- Seleccionar distintas filas y columnas.
- Formatear un dataframe.
- Aplicar filtros a un dataframe.
- Realizar operaciones con tablas con `pandas` de la misma manera que en `SQL`.
- Manipular distintos tipos de datos (strings, integers, floats, datetime, etc).

<a class='anchor' id='0'></a>

### <font color='289C4E'>0) Importe las librerías necesarias<font> [↑](#inicio) 

In [3]:
import datetime
import numpy as np
import pandas as pd 
import os

import matplotlib.pyplot as plt
%matplotlib inline

<a class="anchor" id='1'></a>

### <font color='289C4E'>1) Leer archivos CSV (Comma Separated Value)<font> [↑](#inicio) 
A la hora de analizar datos estos pueden venir en distintos formatos como por ejemplo `.csv` (Comma Separated Value), `.xlsx` (Microsoft Excel Open XML Spreadsheet), JSON (JavaScript Object Notation), YAML (Yet Another Markup Language), etc. Es frecuente encontrar datos estructurados como CSV, donde las comas son utilizadas para separar los valores de la tabla. 

[Pandas](https://pandas.pydata.org/) es posiblemente una de las librerías más populares para el análisis y manipulación de datos. En este práctico estaremos utilizando esta librería para analizar los datos contenidos en nuestra tabla, manipular los mismos, crear filtros, inspeccionar, visualizar y obtener estadísticas simples de nuestros datos.

- Utilize la función [pd.read_csv()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html) para leer la tabla `online_reatail.csv` en formato .csv y llámele al dataframe `online_retail`.
- Visualize el contenido del mismo utilizando la funcion [.head()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.head.html)

In [4]:
file_path = "C:/Users/Felipe Biatturi/Desktop/online_retail.csv"
online_retail = pd.read_csv(file_path)
print(online_retail.head())

  InvoiceNo StockCode                          Description  Quantity  \
0    536365    85123A   WHITE HANGING HEART T-LIGHT HOLDER         6   
1    536365     71053                  WHITE METAL LANTERN         6   
2    536365    84406B       CREAM CUPID HEARTS COAT HANGER         8   
3    536365    84029G  KNITTED UNION FLAG HOT WATER BOTTLE         6   
4    536365    84029E       RED WOOLLY HOTTIE WHITE HEART.         6   

      InvoiceDate  UnitPrice  CustomerID         Country  
0  1/12/2010 8:26       2.55     17850.0  United Kingdom  
1  1/12/2010 8:26       3.39     17850.0  United Kingdom  
2  1/12/2010 8:26       2.75     17850.0  United Kingdom  
3  1/12/2010 8:26       3.39     17850.0  United Kingdom  
4  1/12/2010 8:26       3.39     17850.0  United Kingdom  


  online_retail = pd.read_csv(file_path)


Excelente! Ya hemos leído satisfactoriamente nuestros datos y ya tenemos nuestro dataframe listo para analizar.

**Observación:** Pandas también provee una función análoga a `.head()` llamada [.tail()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.tail.html). Mientras que `.head()` visualiza los *primeros N* datos, la función `.tail()` nos permite visualizar los *últimos N* datos.

<a class='anchor' id="2"></a>

### <font color='289C4E'>2) Dimensión del dataframe<font> [↑](#inicio) 

Frecuentemente, es de nuestro interés conocer las dimensiones de nuestro *dataframe* (DF de ahora en más). Imprima usando la función [.shape()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.shape.html) el número de filas y número de columnas del DF. 

In [5]:
dimensiones = online_retail.shape
print(f"El DataFrame tiene {dimensiones[0]} filas y {dimensiones[1]} columnas.")

El DataFrame tiene 532619 filas y 8 columnas.


In [None]:
x = 3  # cantidad de perros
y = 1  # cantidad de gatos
print("Russell tiene %s perros" % x)
print("Russell tiene %s gato" % y)
print("Russell tiene %s perros y un %s gato" % (x,y))

**Observación:** a la hora de usar la función `print()` se pueden pasar valores de variables para ser impresas usando formatting de la siguiente manera:
```
### Ejemplo:
x = 3  # cantidad de perros
y = 1  # cantidad de gatos
print("Russell tiene %s perros" % x)
print("Russell tiene %s gato" % y)
print("Russell tiene %s perros y un %s gato" % (x,y))
```

<a class='anchor' id="3"></a>

### <font color='289C4E'>3) Selección de columnas<font> [↑](#inicio) 
    
Las columnas de un dataframe pueden ser seleccionadas de distintas formas. Pandas nos permite consultar datos de nuestro dataframe utilizando el operador de indexado [] . Además del operador genérico cuenta con dos operadores
particulares [.iloc](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.iloc.html) y [.loc](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.loc.html) . El operador `.iloc` nos permite consultar nuestra tabla por ubicación numérica (posición) de filas/columnas y el operador `.loc` nos permite consultar nuestra tabla por nombres (labels) de filas/columnas.
   
- Seleccione la columna `Description` utilizando la función `.loc[]`
.- Seleccione la columna `UnitPrice` utilizando la función `.iloc[]`
- Seleccione las columnas `StockCode` y "Quantity" simultáneamente usando `.loc[]`
- Seleccione las columnas `InvoiceNo` y "CustomerID" simultáneamente usando `.iloc[]`
- Seleccione la columna `Country` sin usar `.loc[]` ni `.iloc[]` (df.column_name)


In [6]:
description_column = online_retail.loc[:, 'Description']
print(description_column.head())

unitprice_column = online_retail.iloc[:, 5]
print(unitprice_column.head())

stock_quantity_columns = online_retail.loc[:, ['StockCode', 'Quantity']]
print(stock_quantity_columns.head())

invoice_customer_columns = online_retail.iloc[:, [0, 6]]  
print(invoice_customer_columns.head())

country_column = online_retail.Country
print(country_column.head())


0     WHITE HANGING HEART T-LIGHT HOLDER
1                    WHITE METAL LANTERN
2         CREAM CUPID HEARTS COAT HANGER
3    KNITTED UNION FLAG HOT WATER BOTTLE
4         RED WOOLLY HOTTIE WHITE HEART.
Name: Description, dtype: object
0    2.55
1    3.39
2    2.75
3    3.39
4    3.39
Name: UnitPrice, dtype: float64
  StockCode  Quantity
0    85123A         6
1     71053         6
2    84406B         8
3    84029G         6
4    84029E         6
  InvoiceNo  CustomerID
0    536365     17850.0
1    536365     17850.0
2    536365     17850.0
3    536365     17850.0
4    536365     17850.0
0    United Kingdom
1    United Kingdom
2    United Kingdom
3    United Kingdom
4    United Kingdom
Name: Country, dtype: object


<a class='anchor' id="4"></a>

### <font color='289C4E'>4) Establecer columna índice<font> [↑](#inicio) 

`pandas` nos permite seleccionar cual va a ser la columna que vamos utilizar como índice de nuestros datos. En caso de no seleccionar índice, pandas incluye un índice por defecto que va de (0:numero filas). En nuestro caso podemos utilizar la función [set_index()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.set_index.html) para cambiar la columna `InvoiceNo` como índice de nuestra tabla a modo de prueba.

In [7]:
online_retail_indexed = online_retail.set_index('InvoiceNo')

print(online_retail_indexed.head())

          StockCode                          Description  Quantity  \
InvoiceNo                                                            
536365       85123A   WHITE HANGING HEART T-LIGHT HOLDER         6   
536365        71053                  WHITE METAL LANTERN         6   
536365       84406B       CREAM CUPID HEARTS COAT HANGER         8   
536365       84029G  KNITTED UNION FLAG HOT WATER BOTTLE         6   
536365       84029E       RED WOOLLY HOTTIE WHITE HEART.         6   

              InvoiceDate  UnitPrice  CustomerID         Country  
InvoiceNo                                                         
536365     1/12/2010 8:26       2.55     17850.0  United Kingdom  
536365     1/12/2010 8:26       3.39     17850.0  United Kingdom  
536365     1/12/2010 8:26       2.75     17850.0  United Kingdom  
536365     1/12/2010 8:26       3.39     17850.0  United Kingdom  
536365     1/12/2010 8:26       3.39     17850.0  United Kingdom  


Dado que la columna `InvoiceNo` no contiene valores únicos no es un buen atributo para utilizar de índice. Utilizar la función [.reset_index()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.reset_index.html) para volver el dataframe a su estado original.

In [8]:
online_retail_reset = online_retail.reset_index()

print(online_retail_reset.head())

   index InvoiceNo StockCode                          Description  Quantity  \
0      0    536365    85123A   WHITE HANGING HEART T-LIGHT HOLDER         6   
1      1    536365     71053                  WHITE METAL LANTERN         6   
2      2    536365    84406B       CREAM CUPID HEARTS COAT HANGER         8   
3      3    536365    84029G  KNITTED UNION FLAG HOT WATER BOTTLE         6   
4      4    536365    84029E       RED WOOLLY HOTTIE WHITE HEART.         6   

      InvoiceDate  UnitPrice  CustomerID         Country  
0  1/12/2010 8:26       2.55     17850.0  United Kingdom  
1  1/12/2010 8:26       3.39     17850.0  United Kingdom  
2  1/12/2010 8:26       2.75     17850.0  United Kingdom  
3  1/12/2010 8:26       3.39     17850.0  United Kingdom  
4  1/12/2010 8:26       3.39     17850.0  United Kingdom  


<a class='anchor' id="5"></a>

### <font color='289C4E'>5) Conteo de datos únicos<font> [↑](#inicio) 
    
Podemos conocer la cantidad de valores únicos de nuestras columnas utilizando la función [.nunique()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.nunique.html). Por qué habría de interesarnos conocer nuestros valores únicos? (Enliste al menos 3 razones)
1. 
2. 
3. 

1.Detección de duplicados y limpieza de datos:

2.Análisis exploratorio y comprensión de datos:

3.Selección de variables para modelado:

<a class='anchor' id="6"></a>

### <font color='289C4E'>6) Visualizar datos únicos<font> [↑](#inicio) 
    
Además de saber la cantidad de valores únicos podemos determinar cuales son los valores únicos. Utilize la función [.unique()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.unique.html) para determinar todos los valores únicos de la columna `Country`.

In [9]:
valores_unicos_country = online_retail['Country'].unique()
print(valores_unicos_country)

['United Kingdom' 'France' 'Australia' 'Netherlands' 'Germany' 'Norway'
 'EIRE' 'Switzerland' 'Spain' 'Poland' 'Portugal' 'Italy' 'Belgium'
 'Lithuania' 'Japan' 'Iceland' 'Channel Islands' 'Denmark' 'Cyprus'
 'Sweden' 'Finland' 'Austria' 'Bahrain' 'Israel' 'Greece' 'Hong Kong'
 'Singapore' 'Lebanon' 'United Arab Emirates' 'Saudi Arabia'
 'Czech Republic' 'Canada' 'Unspecified' 'Brazil' 'USA'
 'European Community' 'Malta' 'RSA']


<a class='anchor' id="7"></a>

### <font color='289C4E'>7) Determinar el tipo de datos<font> [↑](#inicio) 
Como hemos visto en clase, existen múltiples tipos de datos. Estos pueden ser númericos interval, numéricos ratio, categóricos nominales, categóricos ordinales, etc. 
1.  Conceptualmente, determine que tipo de dato es cada una de las columnas acorde a lo visto en el teórico. 
2. Determine el tipo de dato de cada columna usando la función [.dtypes](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.dtypes.html)
3. Convierta la columna "InvoiceDate" a formato datetime usando la función [pd.to_datetime()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.to_datetime.html)

- **InvoiceNo:** 
- **StockCode:**  
- **Description:**
- **Quantity:**
- **InvoiceDate:**
- **UnitPrice:**
- **CustomerID:**
- **Country:**

InvoiceNo: Tipo de Dato Conceptual: Categórico nominal. Representa un identificador único para cada factura. Aunque es numérico, su uso es como identificador, no para cálculos matemáticos.

StockCode: Tipo de Dato Conceptual: Categórico nominal. Representa el código único del producto, utilizado como identificador.

Description: Tipo de Dato Conceptual: Categórico nominal. Contiene descripciones de los productos, lo que permite clasificar productos en diferentes categorías.

Quantity: Tipo de Dato Conceptual: Numérico ratio. Representa la cantidad de productos vendidos y se puede utilizar en cálculos matemáticos y estadísticas.

InvoiceDate: Tipo de Dato Conceptual: Temporal. Representa la fecha y hora de la factura. Es una fecha y hora en la que se realizan las transacciones.

UnitPrice: Tipo de Dato Conceptual: Numérico ratio. Representa el precio por unidad de producto, útil para cálculos y análisis.

CustomerID: Tipo de Dato Conceptual: Categórico nominal. Representa un identificador único para cada cliente.

Country: Tipo de Dato Conceptual: Categórico nominal. Indica el país en el que se realizó la compra.

In [15]:
online_retail['InvoiceDate'] = pd.to_datetime(online_retail['InvoiceDate'], format='%d/%m/%Y %H:%M')
print(online_retail.dtypes)

InvoiceNo              object
StockCode              object
Description            object
Quantity                int64
InvoiceDate    datetime64[ns]
UnitPrice             float64
CustomerID            float64
Country                object
dtype: object


<a class='anchor' id="8"></a>

### <font color='289C4E'>8) Filtros<font> [↑](#inicio) 
Una de las operaciones más frecuentes que realizamos sobre DFs es filtrar la información acorde a ciertos parámetros de búsqueda o requisitos. Obtenga todas los registros:
1. Cuyo país sea Holanda.
2. De los países ['Italy', 'Belgium', 'Lithuania', 'Japan', 'Iceland'] usando una lista.
3. De los países de la lista anterior cuya cantidad sea superior a 12.
4. Cuyo UnitPrice sea superior a 0.3 pero igual o menor a 0.6
5. Entre el 01/01/2010 y el 01/01/2011
6. Cuya descripción sea "CUTLERY CIRCUS". (**Tip:** use la función [pd.str.contains()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.str.contains.html))
7. Cuyo país sea "United Kingdom" y "CustomerID" sea faltante (null). 

In [16]:
holanda_records = online_retail[online_retail['Country'] == 'Netherlands']
print("Registros cuyo país sea Holanda:")
print(holanda_records)

paises_lista = ['Italy', 'Belgium', 'Lithuania', 'Japan', 'Iceland']
registros_paises = online_retail[online_retail['Country'].isin(paises_lista)]
print("\nRegistros de los países ['Italy', 'Belgium', 'Lithuania', 'Japan', 'Iceland']:")
print(registros_paises)

registros_paises_cantidad = registros_paises[registros_paises['Quantity'] > 12]
print("\nRegistros de los países de la lista anterior cuya cantidad sea superior a 12:")
print(registros_paises_cantidad)

registros_precio = online_retail[(online_retail['UnitPrice'] > 0.3) & (online_retail['UnitPrice'] <= 0.6)]
print("\nRegistros cuyo UnitPrice sea superior a 0.3 pero igual o menor a 0.6:")
print(registros_precio)

inicio_fecha = '2010-01-01'
fin_fecha = '2011-01-01'
registros_fechas = online_retail[(online_retail['InvoiceDate'] >= inicio_fecha) & (online_retail['InvoiceDate'] < fin_fecha)]
print("\nRegistros entre el 01/01/2010 y el 01/01/2011:")
print(registros_fechas)

registros_descripcion = online_retail[online_retail['Description'].str.contains('CUTLERY CIRCUS', na=False)]
print("\nRegistros cuya descripción sea 'CUTLERY CIRCUS':")
print(registros_descripcion)

registros_uk_null = online_retail[(online_retail['Country'] == 'United Kingdom') & (online_retail['CustomerID'].isna())]
print("\nRegistros cuyo país sea 'United Kingdom' y 'CustomerID' sea faltante (null):")
print(registros_uk_null)

Registros cuyo país sea Holanda:
       InvoiceNo StockCode                        Description  Quantity  \
376       536403     22867            HAND WARMER BIRD DESIGN        96   
377       536403      POST                            POSTAGE         1   
37348     539491     21981       PACK OF 12 WOODLAND TISSUES         12   
37349     539491     21986   PACK OF 12 PINK POLKADOT TISSUES        12   
37350     539491     22720  SET OF 3 CAKE TINS PANTRY DESIGN          2   
...          ...       ...                                ...       ...   
525744    581176     22908      PACK OF 20 NAPKINS RED APPLES        96   
525745    581176     22907   PACK OF 20 NAPKINS PANTRY DESIGN        96   
525746    581176     22029             SPACEBOY BIRTHDAY CARD        72   
525747    581176     22712                   CARD DOLLY GIRL         72   
528536    581338     23344          JUMBO BAG 50'S CHRISTMAS        140   

               InvoiceDate  UnitPrice  CustomerID      Country  
3

<a class='anchor' id="9"></a>

### <font color='289C4E'>9) Group by<font> [↑](#inicio) 
Es común querer realizar funciones de agregación (SUM, COUNT, MIN, MAX, AVG) luego de agrupar por una columna o un conjunto de columnas. Documentación: 
    
- https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.groupby.html


1. Determine la cantidad total por país: agrupe por la columna `Country` y sume la columna `Quantity`.
2. Determine el promedio mensual de la cantidad: agrupe por la columna `InvoiceDate` de manera mensual y promedie por "Quantity". **Tip:** pd.Grouper(key='InvoiceDate',freq='M')
3. Ahora combinaremos nuestros conocimientos de los puntos 1 y 2. Queremos saber la cantidad total por país pero ahora mes a mes. Agrupe primero por `Country` y luego por `InvoiceDate`. Sume `Quantity`.
4. Por último, combinemos lo que hemos aprendido de filtros con lo que hemos aprendido de agrupación. Cree un filto que filtre el campo `Description` por todos los valores que contienen la palabra 'MINI' y que además `CustomerID` no sea nulo. Luego agrupe este resultado por la columna `Country` y tome el mínimo de `UnitPrice`

In [17]:
cantidad_por_pais = online_retail.groupby('Country')['Quantity'].sum()
print("Cantidad total por país:")
print(cantidad_por_pais)

promedio_mensual = online_retail.groupby(pd.Grouper(key='InvoiceDate', freq='M'))['Quantity'].mean()
print("\nPromedio mensual de la cantidad:")
print(promedio_mensual)

cantidad_pais_mes = online_retail.groupby(['Country', pd.Grouper(key='InvoiceDate', freq='M')])['Quantity'].sum()
print("\nCantidad total por país mes a mes:")
print(cantidad_pais_mes)

filtro_mini = online_retail[online_retail['Description'].str.contains('MINI', na=False) & online_retail['CustomerID'].notna()]
min_unitprice_por_pais = filtro_mini.groupby('Country')['UnitPrice'].min()
print("\nMínimo de UnitPrice por país para registros con 'MINI' en Description y CustomerID no nulo:")
print(min_unitprice_por_pais)

Cantidad total por país:
Country
Australia                 84209
Austria                    4881
Bahrain                     314
Belgium                   23237
Brazil                      356
Canada                     2763
Channel Islands            9491
Cyprus                     6361
Czech Republic              671
Denmark                    8235
EIRE                     147447
European Community          499
Finland                   10704
France                   112104
Germany                  119263
Greece                     1557
Hong Kong                  4773
Iceland                    2458
Israel                     4409
Italy                      8112
Japan                     26016
Lebanon                     386
Lithuania                   652
Malta                       970
Netherlands              200937
Norway                    19338
Poland                     3684
Portugal                  16258
RSA                         352
Saudi Arabia                 80
Singapo

  promedio_mensual = online_retail.groupby(pd.Grouper(key='InvoiceDate', freq='M'))['Quantity'].mean()
  cantidad_pais_mes = online_retail.groupby(['Country', pd.Grouper(key='InvoiceDate', freq='M')])['Quantity'].sum()



Mínimo de UnitPrice por país para registros con 'MINI' en Description y CustomerID no nulo:
Country
Australia                0.36
Austria                  0.36
Bahrain                  1.45
Belgium                  0.42
Canada                   0.83
Channel Islands          0.63
Cyprus                   1.45
Denmark                  0.42
EIRE                     0.29
Finland                  0.42
France                   0.19
Germany                  0.19
Greece                   0.83
Iceland                  0.42
Israel                   0.29
Italy                    0.42
Japan                    0.36
Lebanon                 12.75
Malta                    1.45
Netherlands              0.19
Norway                   0.42
Poland                   0.83
Portugal                 0.42
RSA                      4.15
Singapore                0.42
Spain                    0.42
Sweden                   0.42
Switzerland              0.42
USA                      0.65
United Arab Emirates     0.65

<a class='anchor' id="10"></a>

### <font color='289C4E'>10) Merge<font> [↑](#inicio) 

Muchas veces es de nuestro interés conectar tablas mediante una columna en común. Esto sucede frecuentemente cuando trabajamos con bases de datos relacionales, donde diversas tablas están vinculadas por uno o varios campos en común llamados **clave foránea** o **foreign key**. En esta ocasión, conectaremos la tabla `online_retail` con la tabla `country_codes` para obtener el código país asociado al nombre del país. 
    
Conecte ambas tablas usando la función [pd.merge()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.merge.html) de pandas y cree una columna nueva dentro de `online_retail` llamada `countryCode`.

##### <font color='289C4E'>10.1) Cargue el .CSV "country_codes" que contiene los códigos país<font>

In [30]:
country_codes_path = r"C:/Users/Felipe Biatturi/Desktop/country_codes.csv"

country_codes = pd.read_csv(country_codes_path)

print("Nombres de las columnas en country_codes:")
print(country_codes.columns)

print("\nPrimeras filas de country_codes:")
print(country_codes.head())

Nombres de las columnas en country_codes:
Index(['Country', 'Alpha-2 code', 'Alpha-3 code', 'Numeric code',
       'Latitude (average)', 'Longitude (average)'],
      dtype='object')

Primeras filas de country_codes:
          Country Alpha-2 code Alpha-3 code Numeric code Latitude (average)  \
0     Afghanistan         "AF"        "AFG"          "4"               "33"   
1         Albania         "AL"        "ALB"          "8"               "41"   
2         Algeria         "DZ"        "DZA"         "12"               "28"   
3  American Samoa         "AS"        "ASM"         "16"         "-14.3333"   
4         Andorra         "AD"        "AND"         "20"             "42.5"   

  Longitude (average)  
0                "65"  
1                "20"  
2                 "3"  
3              "-170"  
4               "1.6"  


##### <font color='289C4E'>10.2) Crea una nueva columna en la tabla "online_retail" que contenga el código país asociado al nombre del país<font>

In [None]:
print("Nombres de las columnas en online_retail:")
print(online_retail.columns)

print("\nNombres de las columnas en country_codes:")
print(country_codes.columns)

online_retail_with_codes = pd.merge(
    online_retail,
    country_codes,
    left_on='Country',      
    right_on='CountryName',    
    how='left'
)

online_retail_with_codes['countryCode'] = online_retail_with_codes['CountryCode']  

print("\nPrimeras filas del DataFrame con countryCode agregado:")
print(online_retail_with_codes.head())

<a class='anchor' id="11"></a>

### <font color='289C4E'>11) Mapas geográficos<font> [↑](#inicio)
    
1. Crea una nueva tabla que contenga el nombre del país, el código país y la cantidad de productos del país. Elimine los duplicados usando la función [drop_duplicates()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.drop_duplicates.html)
2. Elimine el país que contenga la mayor cantidad de productos.
3. Visualize la cantidad de productos de cada país usando un mapa geográfico (opcional)

[Hint](https://plotly.com/python/choropleth-maps/)

In [34]:
print(country_codes.head())
print(country_codes.columns)

online_retail_with_codes = pd.merge(
    online_retail,
    country_codes,
    left_on='Country',     
    right_on='Country',       
    how='left'
)

online_retail_with_codes['countryCode'] = online_retail_with_codes['Alpha-2 code']

print(online_retail_with_codes.head())

          Country Alpha-2 code Alpha-3 code Numeric code Latitude (average)  \
0     Afghanistan         "AF"        "AFG"          "4"               "33"   
1         Albania         "AL"        "ALB"          "8"               "41"   
2         Algeria         "DZ"        "DZA"         "12"               "28"   
3  American Samoa         "AS"        "ASM"         "16"         "-14.3333"   
4         Andorra         "AD"        "AND"         "20"             "42.5"   

  Longitude (average)  
0                "65"  
1                "20"  
2                 "3"  
3              "-170"  
4               "1.6"  
Index(['Country', 'Alpha-2 code', 'Alpha-3 code', 'Numeric code',
       'Latitude (average)', 'Longitude (average)'],
      dtype='object')
  InvoiceNo StockCode                          Description  Quantity  \
0    536365    85123A   WHITE HANGING HEART T-LIGHT HOLDER         6   
1    536365     71053                  WHITE METAL LANTERN         6   
2    536365    84406B   

<a class='anchor' id="12"></a>

### <font color='289C4E'>12) Operaciones con tablas usando MovieLens 100k<font> [↑](#inicio) 
    
En esta seccion utilizaremos [MovieLens 100k](https://grouplens.org/datasets/movielens/100k/), una popular base de datos de ratings de peliculas. Esta tabla contiene ratings en una escala entre 1 y 5 puntos para cada combinacion User - Movie.

Asuma la siguiente situación. La tabla de ratings hasta una fecha determinada ha sido cargada. Sin embargo, en otra fecha más adelante en el futuro se han generado más registros y, en consecuencia, la tabla `ratings` ha quedado desactualizada.

Asuma que la tabla `ratings_1` es la tabla original, ahora desactualizada. Concaténele la tabla `ratings_2` usando la función [pd.concat()](https://pandas.pydata.org/docs/reference/api/pandas.concat.html) y llámele `ratings`.

In [38]:

ratings_1_path = "C:/Users/Felipe Biatturi/Desktop/ratings_1.csv"
ratings_2_path = "C:/Users/Felipe Biatturi/Desktop/ratings_2.csv"

ratings_1 = pd.read_csv(ratings_1_path)
ratings_2 = pd.read_csv(ratings_2_path)

ratings = pd.concat([ratings_1, ratings_2], axis=0, ignore_index=True)

print(ratings.head())

output_path = "C:/Users/Felipe Biatturi/Desktop/ratings_combined.csv"
ratings.to_csv(output_path, index=False)

   Unnamed: 0  user  item  rating
0           0   196   242       3
1           1   186   302       3
2           2    22   377       1
3           3   244    51       2
4           4   166   346       1


<a class='anchor' id="13"></a>

### <font color='289C4E'>13) Timestamps<font> [↑](#inicio) 
    
Suponga ahora que el departamento de Data Engineering ha conseguido una columna adicional muy valiosa: las fechas cuando se han generado los ratings. De la misma manera que el punto anterior concaténe los dataframes `timestamps_1` y `timestamps_2` y llámele `timestamps`.

In [39]:
timestamps_1_path = "C:/Users/Felipe Biatturi/Desktop/timestamps_1.csv"
timestamps_2_path = "C:/Users/Felipe Biatturi/Desktop/timestamps_2.csv"

timestamps_1 = pd.read_csv(timestamps_1_path)
timestamps_2 = pd.read_csv(timestamps_2_path)

timestamps = pd.concat([timestamps_1, timestamps_2], axis=0, ignore_index=True)

print(timestamps.head())

output_path = "C:/Users/Felipe Biatturi/Desktop/timestamps_combined.csv"
timestamps.to_csv(output_path, index=False)

   index  timestamp
0      0  881250949
1      1  891717742
2      2  878887116
3      3  880606923
4      4  886397596


<a class='anchor' id="14"></a>

### <font color='289C4E'>14) Merge<font> [↑](#inicio) 
    
Ahora tenemos por un lado una tabla `ratings` que contiene todos los registros de ratings existentes y, por otro lado, tenemos la tabla `timestamps` que contiene todas las fechas existentes. Estas dos tablas deben ser unidas mediante un índice en común (la columna index). Utilize la función [pd.merge()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.merge.html) para unir estas tablas. Llame a esta tabla `ml100`.

In [43]:

ratings_path = "C:/Users/Felipe Biatturi/Desktop/ratings_combined.csv"
timestamps_path = "C:/Users/Felipe Biatturi/Desktop/timestamps_combined.csv"

ratings = pd.read_csv(ratings_path)
timestamps = pd.read_csv(timestamps_path)

print("Ratings columns:", ratings.columns)
print("Timestamps columns:", timestamps.columns)

if 'index' in ratings.columns and 'index' in timestamps.columns:
    ml100 = pd.merge(ratings, timestamps, on='index', how='inner')
    print("DataFrame ml100:")
    print(ml100.head())
    output_path = "C:/Users/Felipe Biatturi/Desktop/ml100.csv"
    ml100.to_csv(output_path, index=False)
else:
    print("La columna 'index' no está en ambos DataFrames. Por favor, revisa los nombres de las columnas.")


Ratings columns: Index(['Unnamed: 0', 'user', 'item', 'rating'], dtype='object')
Timestamps columns: Index(['index', 'timestamp'], dtype='object')
La columna 'index' no está en ambos DataFrames. Por favor, revisa los nombres de las columnas.


<a class='anchor' id="15"></a>

### <font color='289C4E'>15) Manipulación de formatos de fecha<font> [↑](#inicio)
    
El campo `timestamp` esta en un formato no agradable. Este campo se encuentra en formato [Unix Timestamp](https://en.wikipedia.org/wiki/Unix_time), el cual cuenta los segundos que han pasado desde el momento en que se generó el registro desde el primero de Enero de 1970 (UTC). Cambie el formato. 

**Tip:** 
1. `from datetime import datetime as dt`
2. .apply(dt.fromtimestamp)

<a class='anchor' id="16"></a>

### <font color='289C4E'>16) Pivot<font> [↑](#inicio) 
    
Queremos crear una tabla llamada `ratings_matrix` a partir de nuestra tabla `ml100`. La tabla `ratings` esta **unpivoted**. Nosotros queremos que la tabla `ratings_matrix` contenga IDs de usuarios en sus filas, IDs de películas (item IDs) en sus columnas y este rellena con los ratings asociados.

Utilize la función de pandas [.pivot()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.pivot.html) para pivotear la tabla `ml100` y asi crear la tabla `ratings_matrix`.