## Ejercicios - Subqueries

Usando la base de datos de **Sakila**:

### Ejercicios 01: Subqueries

1. Encontrar el cliente que ha alquilado más películas.

2. Encontrar la categoría con más películas.

3. Encontrar la tienda con más ingresos.

4. Encontrar la película más alquilada.

5. Encontrar el actor que ha aparecido en más películas.

1. Encontrar el cliente que ha alquilado más películas.

In [None]:
select * from sakila.customer
where customer_id = (
SELECT customer_id FROM sakila.rental
group by customer_id
order by count(customer_id) desc limit 1)

In [2]:
pip install fpdf

Note: you may need to restart the kernel to use updated packages.


In [1]:
python generar_pdf.py

SyntaxError: invalid syntax (3870997858.py, line 1)

In [None]:
\documentclass[12pt,a4paper]{article}
\usepackage[spanish]{babel}
\usepackage[utf8]{inputenc}
\usepackage[T1]{fontenc}
\usepackage{lmodern}
\usepackage{listings}
\usepackage{xcolor}
\usepackage{amsmath}
\usepackage{hyperref}

\hypersetup{
    colorlinks=true,
    urlcolor=blue,
    linkcolor=blue,
    citecolor=black
}

\lstset{
    language=Python,
    basicstyle=\ttfamily\small,
    keywordstyle=\color{blue}\bfseries,
    commentstyle=\color{gray},
    stringstyle=\color{red},
    numbers=left,
    numberstyle=\tiny,
    stepnumber=1,
    showstringspaces=false,
    breaklines=true
}

\title{\textbf{Guía Básica de Pandas}}
\author{Data Scientist}
\date{\today}

\begin{document}
\maketitle

\tableofcontents
\newpage

\section{Introducción}
Pandas es una biblioteca de Python especializada en la manipulación y análisis de datos. Proporciona estructuras de datos (principalmente \texttt{Series} y \texttt{DataFrame}) y múltiples funciones que permiten leer, limpiar, transformar, agrupar y exportar información de manera sencilla y eficiente.

\section{Lectura de Datos}
\subsection{\texttt{pd.read\_csv}}
\begin{itemize}
    \item \textbf{Descripción}: Carga datos desde un archivo CSV (u otros separados por delimitadores) a un \texttt{DataFrame}.
    \item \textbf{Uso Típico}:
\end{itemize}

\begin{lstlisting}
import pandas as pd

df = pd.read_csv("data.csv", delimiter=",")
\end{lstlisting}

\begin{itemize}
    \item \textbf{Parámetros frecuentes}:
    \begin{itemize}
        \item \texttt{delimiter}: Define el separador de columnas (por defecto, coma).
        \item \texttt{header}: Indica la fila que contiene los nombres de columnas (por defecto, 0).
        \item \texttt{encoding}: Especifica la codificación (por ejemplo \texttt{"utf-8"}).
    \end{itemize}
\end{itemize}

\subsection{\texttt{pd.read\_excel}}
\begin{itemize}
    \item \textbf{Descripción}: Carga datos desde un archivo de Excel (\texttt{.xls} o \texttt{.xlsx}).
    \item \textbf{Uso Típico}:
\end{itemize}

\begin{lstlisting}
df_excel = pd.read_excel("data.xlsx", sheet_name="Hoja1")
\end{lstlisting}

\begin{itemize}
    \item \textbf{Parámetros frecuentes}:
    \begin{itemize}
        \item \texttt{sheet\_name}: Nombre o índice de la hoja de Excel.
        \item \texttt{header}: Indica la fila que contiene los nombres de columnas.
        \item \texttt{usecols}: Columnas específicas a leer.
    \end{itemize}
\end{itemize}

\section{Exploración de Datos}
\subsection{\texttt{df.head()}}
\begin{itemize}
    \item \textbf{Descripción}: Muestra las primeras filas del \texttt{DataFrame}.
    \item \textbf{Ejemplo}:
\end{itemize}

\begin{lstlisting}
df.head(5) # Muestra las primeras 5 filas (por defecto 5)
\end{lstlisting}

\subsection{\texttt{df.tail()}}
\begin{itemize}
    \item \textbf{Descripción}: Muestra las últimas filas del \texttt{DataFrame}.
    \item \textbf{Ejemplo}:
\end{itemize}

\begin{lstlisting}
df.tail(3) # Muestra las últimas 3 filas
\end{lstlisting}

\subsection{\texttt{df.info()}}
\begin{itemize}
    \item \textbf{Descripción}: Proporciona un resumen de las columnas, incluyendo tipos de datos y valores nulos.
    \item \textbf{Ejemplo}:
\end{itemize}

\begin{lstlisting}
df.info()
\end{lstlisting}

\subsection{\texttt{df.describe()}}
\begin{itemize}
    \item \textbf{Descripción}: Muestra estadísticas descriptivas (recuento, promedio, desviación estándar, etc.) de columnas numéricas (por defecto).
    \item \textbf{Ejemplo}:
\end{itemize}

\begin{lstlisting}
df.describe()
\end{lstlisting}

\subsection{\texttt{df.shape}}
\begin{itemize}
    \item \textbf{Descripción}: Retorna una tupla con la forma del \texttt{DataFrame} \texttt{(filas, columnas)}.
    \item \textbf{Ejemplo}:
\end{itemize}

\begin{lstlisting}
num_filas, num_columnas = df.shape
print(num_filas, num_columnas)
\end{lstlisting}

\subsection{\texttt{df.columns}}
\begin{itemize}
    \item \textbf{Descripción}: Lista los nombres de las columnas.
    \item \textbf{Ejemplo}:
\end{itemize}

\begin{lstlisting}
print(df.columns)
\end{lstlisting}

\section{Limpieza de Datos}
\subsection{\texttt{df.dropna()}}
\begin{itemize}
    \item \textbf{Descripción}: Elimina las filas (o columnas) con valores nulos.
    \item \textbf{Ejemplo}:
\end{itemize}

\begin{lstlisting}
df_sin_nulos = df.dropna(axis=0)  # Elimina filas con al menos un valor nulo
\end{lstlisting}

\begin{itemize}
    \item \textbf{Parámetros importantes}:
    \begin{itemize}
        \item \texttt{axis=0}: Indica que se eliminarán filas; \texttt{axis=1} para eliminar columnas.
        \item \texttt{how='any'}: Elimina la fila o columna si existe al menos un valor nulo. Si se usa \texttt{'all'}, elimina solo si todos los valores son nulos.
    \end{itemize}
\end{itemize}

\subsection{\texttt{df.fillna()}}
\begin{itemize}
    \item \textbf{Descripción}: Rellena los valores nulos con un valor específico o alguna estrategia (media, mediana, etc.).
    \item \textbf{Ejemplo}:
\end{itemize}

\begin{lstlisting}
df_relleno = df.fillna(0)  # Reemplaza NaN con 0
\end{lstlisting}

\subsection{\texttt{df.rename()}}
\begin{itemize}
    \item \textbf{Descripción}: Cambia el nombre de las columnas (o filas, si se especifica).
    \item \textbf{Ejemplo}:
\end{itemize}

\begin{lstlisting}
df_renombrado = df.rename(columns={
    "old_name": "new_name",
    "old_name2": "new_name2"
})
\end{lstlisting}

\section{Selección e Indexación}
\subsection{\texttt{df.loc}}
\begin{itemize}
    \item \textbf{Descripción}: Selección de filas y columnas usando etiquetas (nombres) de filas y columnas.
    \item \textbf{Ejemplo}:
\end{itemize}

\begin{lstlisting}
# Seleccionar la fila con índice "A" y la columna "edad"
df.loc["A", "edad"]

# Seleccionar múltiples filas y columnas
df.loc[["A", "B"], ["edad", "salario"]]
\end{lstlisting}

\subsection{\texttt{df.iloc}}
\begin{itemize}
    \item \textbf{Descripción}: Selección de filas y columnas usando índices enteros (posición).
    \item \textbf{Ejemplo}:
\end{itemize}

\begin{lstlisting}
# Seleccionar la primera fila y la primera columna
df.iloc[0, 0]

# Seleccionar las primeras 2 filas y columnas de la 0 a la 2 (excluyendo 3)
df.iloc[0:2, 0:3]
\end{lstlisting}

\section{Agrupación y Combinación de Datos}
\subsection{\texttt{df.groupby()}}
\begin{itemize}
    \item \textbf{Descripción}: Agrupa filas en función de los valores de una o varias columnas y permite aplicar funciones de agregación o transformación.
    \item \textbf{Ejemplo}:
\end{itemize}

\begin{lstlisting}
# Calcular la media de "salario" agrupando por "departamento"
df.groupby("departamento")["salario"].mean()
\end{lstlisting}

\subsection{\texttt{df.merge()}}
\begin{itemize}
    \item \textbf{Descripción}: Combina dos \texttt{DataFrame} basados en columnas (join) que comparten.
    \item \textbf{Ejemplo}:
\end{itemize}

\begin{lstlisting}
df_1 = pd.DataFrame({
    "id": [1,2,3],
    "nombre": ["Ana","Beto","Carla"]
})
df_2 = pd.DataFrame({
    "id": [1,2,4],
    "salario": [2000,1800,2500]
})

df_merged = pd.merge(df_1, df_2, on="id", how="inner")
\end{lstlisting}

\begin{itemize}
    \item \textbf{Parámetros importantes}:
    \begin{itemize}
        \item \texttt{on}: Nombre de la columna (o lista de columnas) usada para combinar.
        \item \texttt{how}: Tipo de unión (\texttt{"inner"}, \texttt{"left"}, \texttt{"right"}, \texttt{"outer"}).
    \end{itemize}
\end{itemize}

\subsection{\texttt{pd.concat()}}
\begin{itemize}
    \item \textbf{Descripción}: Concatena \texttt{DataFrame} por filas o columnas.
    \item \textbf{Ejemplo}:
\end{itemize}

\begin{lstlisting}
# Concatenar dos DataFrames por filas
df_concat = pd.concat([df_1, df_2], axis=0)
\end{lstlisting}

\section{Exportar Datos}
\subsection{\texttt{df.to\_csv()}}
\begin{itemize}
    \item \textbf{Descripción}: Exporta un \texttt{DataFrame} a un archivo CSV.
    \item \textbf{Ejemplo}:
\end{itemize}

\begin{lstlisting}
df.to_csv("resultado.csv", index=False)
\end{lstlisting}

\subsection{\texttt{df.to\_excel()}}
\begin{itemize}
    \item \textbf{Descripción}: Exporta un \texttt{DataFrame} a un archivo de Excel.
    \item \textbf{Ejemplo}:
\end{itemize}

\begin{lstlisting}
df.to_excel("resultado.xlsx", sheet_name="Hoja1", index=False)
\end{lstlisting}

\section{Conclusión}
Esta guía cubre las funciones y métodos esenciales de \textbf{Pandas}, ofreciendo una visión básica para la lectura, limpieza, exploración, transformación y exportación de datos. Con estos ejemplos podrás iniciar o reforzar tu flujo de trabajo en ciencia de datos y análisis de información. 

Para más detalles, consulta la \href{https://pandas.pydata.org/docs}{documentación oficial de Pandas}.

\end{document}


In [None]:
################################################################################################################################