## Reto 2: Convertir tablas en MySQL a `DataFrames` de `pandas`

### 1. Objetivos:
    - Solicitar todos los datos de las tablas que están almacenadas en nuestra base de datos, convertirlos a `DataFrames` y guardarlos.
    
---
    
### 2. Desarrollo:

#### a) Tablas a `DataFrames`

Ya que tenemos nuestra conexión funcionando adecuadamente, vamos a utilizarla para realizar consultas a las base de datos y construir una base de datos local. Tu Reto consiste en los siguientes pasos:

1. Vuelve a establecer la conexión a la base de datos
2. Usando el comando `SELECT * FROM nombre_de_tabla`, realiza consultas a cada una de las 5 tablas que existen en la base de datos.
3. Crea un `DataFrame` por cada tabla que obtuviste. Para asignarle los nombres de las columnas correctamente, revisa el archivo [Readme.md](../../Datasets/MovieLens/Readme.md) donde está contenida toda esa información.
4. Asegúrate de que el índice sea adecuado en cada `DataFrame`. En los casos en los que haya datos redundantes, convierte una de las columnas en índice.
5. Si lo deseas ordena las columnas de la manera en la que mejor te parezca.
6. Guarda tus `DataFrames` en formato .csv para utilizarlos en los siguientes Retos.

> **NOTA IMPORTANTE**: La tabla movies es un poco complicada porque contiene muchos signos distintos. Tanto en la columna de nombre de película como la de género, encontramos signos como `,`, `:`, `.`, `|`. Esto hace un poco complicado el almacenamiento y lectura de este archivo. Si elijes guardar este archivo como un .csv separado por comas (`,`), a la hora de leerlo de regreso, `pandas` puede confundirse y pensar que el título de una película que contiene comas constituye dos columnas. Por esta razón, te recomiendo que la tabla `movies` la guardes agregando un separador poco convencional como `sep='$'`. De esta manera será muchísimo más fácil leer tu archivo de regreso usando ese separador.

In [2]:
!pip install mysql-connector-python

Collecting mysql-connector-python
  Downloading mysql_connector_python-8.1.0-cp310-cp310-manylinux_2_17_x86_64.whl (27.5 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m27.5/27.5 MB[0m [31m26.6 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting protobuf<=4.21.12,>=4.21.1 (from mysql-connector-python)
  Downloading protobuf-4.21.12-cp37-abi3-manylinux2014_x86_64.whl (409 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m409.8/409.8 kB[0m [31m36.2 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: protobuf, mysql-connector-python
  Attempting uninstall: protobuf
    Found existing installation: protobuf 3.20.3
    Uninstalling protobuf-3.20.3:
      Successfully uninstalled protobuf-3.20.3
Successfully installed mysql-connector-python-8.1.0 protobuf-4.21.12


In [3]:
# Tu código va a aquí
#
# ...
# ...

import mysql.connector
cnx = mysql.connector.connect(
    host="localhost",
    port=3306,
    user="movienerd",
    password='sonerdy',
    database='movielens'
)

In [4]:
[('age_ranges',), ('movies',), ('occupations',), ('ratings',), ('users',)]

[('age_ranges',), ('movies',), ('occupations',), ('ratings',), ('users',)]

In [5]:
cursor = cnx.cursor()
cursor.execute("SELECT * FROM age_ranges")
age_ranges = cursor.fetchall()
cursor.execute("SELECT * FROM movies")
movies = cursor.fetchall()
cursor.execute("SELECT * FROM occupations")
occupations = cursor.fetchall()
cursor.execute("SELECT * FROM ratings")
ratings = cursor.fetchall()
cursor.execute("SELECT * FROM users")
users = cursor.fetchall()

In [6]:
import pandas as pd


In [7]:
age_ranges_df = pd.DataFrame(age_ranges, columns=['age_ranges_id','age_ranges'])
age_ranges_df = age_ranges_df.set_index('age_ranges_id', drop=True)
age_ranges_df

Unnamed: 0_level_0,age_ranges
age_ranges_id,Unnamed: 1_level_1
1,Under 18
18,18-24
25,25-34
35,35-44
45,45-49
50,50-55
56,56+


In [8]:
movies_df = pd.DataFrame(movies, columns=['movies_id','movie','clasification'])
movies_df = movies_df.set_index('movies_id', drop=True)
movies_df

Unnamed: 0_level_0,movie,clasification
movies_id,Unnamed: 1_level_1,Unnamed: 2_level_1
1,Toy Story (1995),Animation|Children's|Comedy
2,Jumanji (1995),Adventure|Children's|Fantasy
3,Grumpier Old Men (1995),Comedy|Romance
4,Waiting to Exhale (1995),Comedy|Drama
5,Father of the Bride Part II (1995),Comedy
...,...,...
3948,Meet the Parents (2000),Comedy
3949,Requiem for a Dream (2000),Drama
3950,Tigerland (2000),Drama
3951,Two Family House (2000),Drama


In [9]:
occupations_df = pd.DataFrame(occupations,columns=['occupations_id','ocupation'])
occupations_df = occupations_df.set_index('occupations_id', drop=True)
occupations_df

Unnamed: 0_level_0,ocupation
occupations_id,Unnamed: 1_level_1
0,other or not specified
1,academic/educator
2,artist
3,clerical/admin
4,college/grad student
5,customer service
6,doctor/health care
7,executive/managerial
8,farmer
9,homemaker


In [10]:
ratings_df = pd.DataFrame(ratings,columns=['user_id','movie_id','rating','timestamp'])
ratings_df = ratings_df.set_index(['user_id','movie_id'], drop=True)
ratings_df

Unnamed: 0_level_0,Unnamed: 1_level_0,rating,timestamp
user_id,movie_id,Unnamed: 2_level_1,Unnamed: 3_level_1
1,1193,5,978300760
1,661,3,978302109
1,914,3,978301968
1,3408,4,978300275
1,2355,5,978824291
...,...,...,...
6040,1091,1,956716541
6040,1094,5,956704887
6040,562,5,956704746
6040,1096,4,956715648


In [11]:
users_df = pd.DataFrame(users, columns=['user_id', 'gender', 'age', 'occupation', 'cp'])
users_df = users_df.set_index('user_id', drop=True)
users_df

Unnamed: 0_level_0,gender,age,occupation,cp
user_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,F,1,10,48067
2,M,56,16,70072
3,M,25,15,55117
4,M,45,7,02460
5,M,25,20,55455
...,...,...,...,...
6036,F,25,15,32603
6037,F,45,1,76006
6038,F,56,1,14706
6039,F,45,0,01060


Compara con tus compañeros y revisa con la experta para que todos estén seguros de que tienen sus `DataFrames` estructurados de la manera correcta y que sus archivos .csv fueron creados exitosamente. Vamos a utilizar estos archivos en los Retos siguientes, así que es muy importante que tus datos estén estructurados adecuadamente.

In [12]:
cursor.close()

True

In [13]:
age_ranges_df.to_csv('../age_ranges.csv')
movies_df.to_csv('../movies.csv')
occupations_df.to_csv('../occupations.csv')
ratings_df.to_csv('../ratings.csv')
users_df.to_csv('../users.csv')

In [34]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive
