## Entrada y Salida de Datos en formatos Heterogeneos

In [None]:
# Importar la libreía Pandas
import pandas as pd

Crearemos una conjunto de datos con nombres de alumnos y los cursos a los cuales están matriculados. Para eso colectaremos datos desde la web

In [None]:
# leyendo datos desde la web, estos datos están en formato json
nombres_f = pd.read_json("https://servicodados.ibge.gov.br/api/v1/censos/nomes/ranking?qtd=20&sexo=f")
nombres_m = pd.read_json("https://servicodados.ibge.gov.br/api/v1/censos/nomes/ranking?qtd=20&sexo=m")

In [None]:
# Mostrando el tipo de datos que es DataFrame
type(nombres_f)

In [None]:
# Mostrando la cantidad de nombres en el DataFrame
print("Cantidad de nombres: " + str(len(nombres_m) + len(nombres_f)))

In [None]:
# Otro formato de impresión
print("Cantidad de nombres: %d" % (len(nombres_m) + len(nombres_f)))

In [None]:
# Colocamos en una lista los nombre femeninos y masculinos que colectamos
frames = [nombres_f, nombres_m]
type(frames)

In [None]:
# listando los datos 
frames

In [None]:
# concatenamos los datos de la lista en un DataFrame
pd.concat(frames)

In [None]:
# Filtramos solamente la columna "nome" y actualizamos el DataFrame
pd.concat(frames)["nome"].to_frame()

In [None]:
# guardamos los dato en la variable "nombres"
nombres = pd.concat(frames)["nome"].to_frame()
nombres.sample(5)

In [None]:
# Renombrar el encabezado para "nombre"
nombres = nombres.rename(columns={'nome': 'nombre'})
print(nombres.columns)

## Incluir ID 

In [None]:
# Importamos la librería numpy
import numpy as np

In [None]:
# generar siempre la misma frecuencia de numeros aleatorios
np.random.seed(123)

In [None]:
# mostranso la cantidad de nombres en el DataFrame
total_alumnos = len(nombres)
total_alumnos

In [None]:
# Adicionaremos una identificación a los alumnos diferente de su posición en el DataFrame
nombres.sample(3)

In [None]:
# queremos que los ID sean aleatorios de 1 a 40, vamos a crear una nueva columna
# La nueva columna recibirá la llamada de np.random.permutation(), una función de Pandas que distribuye números de forma aleatoria. 
# Para eso, pasaremos como parámetro el total_alumnos y sumaremos 1
nombres["id_alumno"] =  np.random.permutation(total_alumnos) + 1
nombres.sample(3)

In [None]:
# mostramos los datos actuales
nombres.head(10)

In [None]:
# Adicionaremos al DataFrame emails, para eso generaremos dominios de emails para luego concaternalos 
# con los nombres de los alumnos
dominios = ['@dominiodeemmail.com.py', '@serviciodeemail.com']

In [None]:
# usamos la función "np.random.choice" para tomar en forma aleatoria el valor de la lista dominios 
# Adicionamos a una nueva columna que se llama "dominio"
nombres['dominio'] = np.random.choice(dominios, total_alumnos)

In [None]:
# Listando el DataFrame
nombres.sample(5)

In [None]:
# concatenamos el dominio con el nombre del alumno y lo adicionamos a una nueva columna que se llama "email"
nombres['email'] = nombres.nombre.str.cat(nombres.dominio).str.lower()

In [None]:
# listando una muestra de los datos
nombres.sample(5)

## Leyendo html

In [None]:
# Importando la librería para leer datos html
import html5lib

In [None]:
# leemos los datos desde una url donde figuran nombres de los cursos a los que se matricularan los alumnos
url = 'http://tabela-cursos.herokuapp.com/index.html'
cursos = pd.read_html(url)
cursos

In [None]:
# los datos html son traidos en un formato tipo lista, por lo que extraemos el primer elemento que contiene el DataFrame
cursos = cursos[0]

In [None]:
# mostrando el tipo del elemento que extraimos
type(cursos)

In [None]:
# listando una muestra de los cursos
cursos.sample(5)

In [None]:
# renombramos la columna para 'nombre del curso'
cursos = cursos.rename(columns={'Nome do curso': 'nombre del curso'})
print(cursos.columns)

In [None]:
# Crearemos un identificador, ID, para cada curso. Generaremos la columna ID que recibirá el indice
cursos['id'] = cursos.index + 1
cursos.tail()

## Matriculando los alumnos en los cursos

In [None]:
# Adicionamos la columna 'matriculas' al DataFrame que contendrá la cantidad de cursos al cual el alumno está matriculado
# para eso usamos una función que aleatoriamente genera un número entre 0 y total_alumnos
nombres['matriculas'] = np.random.exponential(size=total_alumnos).astype(int)
nombres.sample(5)

In [None]:
# Ajustamos las matriculas cuyo valor fue 0, para eso usamos np.ceil, de esa manera todos los alumnos al menos estarán 
# matriculados a un curso
nombres['matriculas'] = np.ceil(np.random.exponential(size=total_alumnos)).astype(int)
nombres.sample(5)

In [None]:
# listamos una muestra del DataFrame
nombres.sample(5)

In [None]:
# aumentaremos el numero de cursos en los cuales los alumnos estan matriculados. 
# Multiplicamos el resultado obtenido usando el generador de números randómicos por 1.5
nombres['matriculas'] = np.ceil(np.random.exponential(size=total_alumnos) * 1.5).astype(int)
nombres.sample(5)

In [None]:
# Describir como quedó la distribución de los datos
nombres.matriculas.describe()

los alumnos estan inscriptos en al menos 1 curso y el máximo de cursos en que el alumno está inscripto es 5 (este número varía según los datos generados)

In [None]:
# visualizamos la información en un gráfico
# importamos la librería seaborn
import seaborn as sns

In [None]:
# Graficamos la distribución de los datos de la columna matriculas
sns.distplot(nombres.matriculas)

In [None]:
# mostramos el número de alumnos por cada cantidad de cursos matriculados
nombres.matriculas.value_counts()

In [None]:
# value_counts() muestra la cantidad de elementos por cada valor diferente en la columna
nombres.dominio.value_counts()

## Seleccionando cursos

<!-- Ahora crearemos un DataFrame donde podremos vincular las matriculas a los nombres de los cursos  -->

In [None]:
# listamos una muestra con los datos
nombres.sample(5)

In [None]:
# para hacer esa distribución crearemos un código para asignar los cursos según la matricula
todas_matriculas = []
x = np.random.rand(20)
prob = x / sum(x)

In [None]:
# el iterador for buscará el index y la linea que se utilizará row.
# ese iterador recorrerá el dataframe nombres con el auxilio de función iterrows()
# for index, row in nombres.iterrows()

# A cada elemento encontrado, almacenaremos el id del alumno, conseguido con row.id_alumno
# y la cantidad de matriculas conseguida con row.matriculas
for index, row in nombres.iterrows():
    id = row.id_alumno
    matriculas = row.matriculas
    for i in range(matriculas):
        mat = [id, np.random.choice(cursos.index, p = prob)]
        todas_matriculas.append(mat)

In [None]:
# Creamos el DataFrame que se llamará matriculas y contendrá los datos de id del alumno y el id del curso
matriculas = pd.DataFrame(todas_matriculas, columns = ['id_alumno', 'id_curso'])
matriculas.head(5)

In [None]:
# podemos usar comandos, como en SQL, para realizar consultas con los datos
matriculas.groupby('id_curso').count().join(cursos['nombre del curso'])

In [None]:
# Consultando la cantidad de alumnos por curso
matriculas.groupby('id_curso').count().join(cursos['nombre del curso']).rename(columns={'id_alumno':'Cantidad_de_alumnos'})

In [None]:
# listando una muestra del DataFrame nombres
nombres.sample(5)

In [None]:
# listando una muestra del DataFrame cursos
cursos.sample(5)

In [None]:
# listando una muestra del DataFrame matriculas
matriculas.sample(5)

In [None]:
# guardando la consulta sobre cantidad de alumnos por curso en una variable
matriculas_por_curso = matriculas.groupby('id_curso').count().join(cursos['nombre del curso']).rename(columns={'id_alumno':'Cantidad_de_alumnos'})

In [None]:
# visualizando una muestra
matriculas_por_curso.sample(5)

### Salida en diferentes formatos

In [None]:
# Exportamos los datos a un archivo csv, se guardara en el directorio actual de trabajo
matriculas_por_curso.to_csv('matriculas_por_curso.csv', index=False)

In [None]:
# podemos leer nuevamente los datos guardados
pd.read_csv('matriculas_por_curso.csv')

In [None]:
# podemos transformar los datos del DataFrame en el formato json
matriculas_json = matriculas_por_curso.to_json()
matriculas_json

In [None]:
# podemos transformar los datos del DataFrame en el formato html
matriculas_html = matriculas_por_curso.to_html()
matriculas_html

In [None]:
# al imprimir podemos visualizar en forma organizada
print(matriculas_html)

## Creando la base de datos SQL

Usando slqalchemy

In [None]:
# Instalar la librería en caso que no lo tenga
#!pip install sqlalchemy

In [None]:
# importaremos las siguientes bibliotecas
from sqlalchemy import create_engine, MetaData, Table

Crearemos el motor (engine) con el camino de la base de datos. SQLite viene nativamente en Colab

In [None]:
# creamos una variable engine
engine = create_engine('sqlite:///:memory:')

In [None]:
type(engine)

Creada la base de datos, necesitamos transformar el dataframe matriculas_por_curso en el formato de la BD usando to_sql()

In [None]:
# esta función recibe inicialmente dos parametros: una string representando el nombre de la tabla, en este caso matriculas
# y la engine
matriculas_por_curso.to_sql('matriculas', engine)

In [None]:
# imprimimos el retorno de la función
print(engine.table_names())

### Consultas en la BD

In [None]:
# Obtener todos los cursos con menos de 20 personas matriculadas
query = 'select * from matriculas where Cantidad_de_alumnos < 5'

In [None]:
pd.read_sql(query, engine)

In [None]:
# otro comando para leer una tabla
pd.read_sql_table('matriculas', engine, columns=['nombre del curso', 'Cantidad_de_alumnos'])

In [None]:
# Atribuir a una variable
muchas_matriculas = pd.read_sql_table('matriculas', engine, columns=['nombre del curso', 'Cantidad_de_alumnos'])

In [None]:
muchas_matriculas

In [None]:
# Utilizar pandas para realizar consultas
muchas_matriculas.query('Cantidad_de_alumnos > 5')

In [None]:
# Repetir el proceso apenas para cursos con mas de 10 inscriptos y atribuir el resultado a una variable
muchas_matriculas = muchas_matriculas.query('Cantidad_de_alumnos > 5')
muchas_matriculas

In [None]:
muchas_matriculas.to_sql('muchas_matriculas', con=engine)

In [None]:
print(engine.table_names())