# Introducción a Python

>Este tutorial es una adaptación al español del material [Python Companion to Statistical Thinking for the 21st Century](https://statsthinking21.github.io/statsthinking21-python/) desarrollado por Russell Poldrack y John Butler. 

En este tutorial, le daremos una descripción general de las características básicas del lenguaje de programación Python. Esta introducción no lo convertirá en un programador experto, solo la práctica lo hará. Sin embargo, le dará una introducción a algunas de las características más importantes del idioma.

## ¿Por qué es difícil aprender a programar?

Programar una computadora es una habilidad, como tocar un instrumento musical o hablar un segundo idioma. Y al igual que esas habilidades, se necesita mucho trabajo para ser bueno en ellas; la única forma de adquirir una habilidad es a través de la práctica. ¡No hay nada especial o mágico en las personas que son expertas, aparte de la calidad y cantidad de su experiencia! Sin embargo, no todas las prácticas son igualmente efectivas. Una gran cantidad de investigación psicológica ha demostrado que la práctica debe ser *deliberada*, lo que significa que se enfoca en desarrollar las habilidades específicas que uno necesita para realizar la habilidad, en un nivel que siempre está impulsando la propia habilidad.

Si nunca ha programado antes, le parecerá difícil, del mismo modo que le resultaría difícil a un hablante nativo de inglés empezar a hablar mandarín. Sin embargo, así como un guitarrista principiante necesita aprender a tocar sus escalas, le enseñaremos cómo realizar los conceptos básicos de la programación, que luego podrá usar para hacer cosas más poderosas.

Uno de los aspectos más importantes de la programación de computadoras es que puede probar las cosas a su antojo; lo peor que puede pasar es que el programa se bloquee. Probar cosas nuevas y cometer errores es una de las claves del aprendizaje.

La parte más difícil de la programación es averiguar por qué algo no funcionó, lo que llamamos *debugging*. En programación, las cosas van a salir mal de formas que a menudo son confusas y opacas. Cada programador tiene una historia sobre pasar horas tratando de averiguar por qué algo no funcionó, solo para darse cuenta de que el problema era completamente obvio en retrospectiva. Cuanta más práctica tenga, mejor podrá descubrir cómo corregir estos errores. Pero hay algunas estrategias que pueden resultar útiles.

### Use la web

En particular, debe aprovechar el hecho de que hay millones de personas programando en Python en todo el mundo, por lo que casi cualquier mensaje de error que vea ya ha sido visto por otra persona. Siempre que experimento un error que no entiendo, lo primero que hago es copiar y pegar el mensaje de error en un motor de búsqueda. A menudo, esto proporcionará varias páginas para discutir el problema y las formas en que la gente lo ha resuelto.

### Debugging de pato de goma

La idea detrás del *debugging de pato de goma* es fingir que está tratando de explicar lo que su código está haciendo a un objeto inanimado, como un pato de goma. A menudo, el proceso de explicarlo en voz alta es suficiente para ayudarlo a encontrar el problema.

## Obtener acceso a Python

Si desea probar Python sin tener que instalarlo en su propia computadora (o si tiene una computadora que no lo admite, como un Chromebook), la mejor manera de probarlo es utilizando una plataforma web que admita *notebooks*, que son documentos que le permiten combinar texto y código; este tutorial en realidad fue escrito usando dichos notebooks. Dos buenas opciones son [Google Colab](https://colab.research.google.com/) y [Kaggle Kernels](https://www.kaggle.com/kernels).

Si desea instalarlo en su propia computadora, le recomendamos que instale el paquete de software [Anaconda](https://www.anaconda.com/products/individual), que le proporcionará Python y muchos paquetes relacionados.

## Empezando con Python

Cuando trabajamos con Python, podemos hacer esto en la línea de comando en una terminal o (como lo haremos) usando un *Jupyter Notebook*.
Los notebooks se componen de *celdas*, cada una de las cuales puede contener código Python o texto.

Los notebooks de Jupyter utilizan un tipo especial de texto conocido como [Markdown] (https://daringfireball.net/projects/markdown/syntax), que permite el formateo (como encabezados o estilos de texto como negrita y cursiva). Si hiciera doble clic en esta celda en Jupyter, podría editar el texto. Una vez que haya terminado de editar, presione el botón **Ejecutar** (el botón de flecha triangular arriba), o presione Shift + Enter, y el texto se mostrará normalmente.

La siguiente celda es una celda de **código**, que usamos para el código Python. Las celdas de código se indican en Jupyter sombreadas en gris. En una celda de código escribimos comandos de Python. Cuando presionamos el botón **Ejecutar** (el botón de flecha triangular arriba), o presionamos Shift + Enter, nuestros comandos se ejecutarán y se imprimirá un resultado en una celda de salida.

Una diferencia entre una celda de código y una celda de Markdown es que la celda de código tiene un número a su izquierda rodeado por corchetes. Si escribe un comando en la celda y luego lo ejecuta, el resultado aparecerá a continuación, con el mismo número a la izquierda.

En el caso más simple, si escribimos un número, la celda simplemente responderá con ese número. En la celda de código a continuación, hemos escrito el número 3. Haga clic en la celda para editar o ejecutar el código nuevamente (Shift + Enter).

In [1]:
3

3

Probemos ahora algo un poco más complicado:

In [2]:
3 + 4

7

Python devuelve la respuesta a lo que escriba, siempre que pueda resolverlo.

Ahora intentemos escribir una palabra:

```hello```

Esto daría como resultado el siguiente output:

```
---------------------------------------------------------------------------
NameError                                 Traceback (most recent call last)
 in 
----> 1 hello

NameError: name 'hello' is not defined
```


¿Qué? ¿Por qué pasó esto? Cuando Python encuentra una letra o una palabra, asume que se refiere al *nombre de una variable*; piense en la X del álgebra de la escuela secundaria. Regresaremos a las variables en un momento, pero si queremos que Python imprima la palabra hello, entonces debemos contenerla entre comillas (simple o doble, no importa), diciéndole a Python que es una cadena de caracteres.

In [3]:
"hello"

'hello'

Hay muchos tipos de variables en Python. Ya ha visto dos ejemplos: números enteros -integers-  (como el número 3) y cadenas de caracteres -strings- (como la palabra "hola"). Otro importante son los números reales, que son el tipo más común de números con los que trataremos en las estadísticas, que abarcan toda la recta numérica, incluidos los espacios entre los números enteros. Por ejemplo:

In [4]:
1 / 6

0.16666666666666666

De forma predeterminada, Python usa números de punto flotante -float-, que proporcionan un alto nivel de precisión. En muchos casos, sin embargo, es posible que desee redondear las salidas de punto flotante a dos o tres lugares decimales, lo que se puede hacer con la función ``round()``.

In [5]:
round(1 / 6, 3)

0.167

Otro tipo de variable se conoce como variable lógica, porque se basa en la idea de la lógica de que una declaración puede ser Verdadera o Falsa.

Para determinar si una declaración es verdadera o no, usamos operadores lógicos. Ya está familiarizado con algunos de estos, como los operadores mayor que (`>`) y menor que (`<`).

In [6]:
1 < 3

True

In [7]:
2 > 4

False

A menudo queremos saber si dos números son iguales o no entre sí. Hay operadores especiales en Python para hacer esto: `==` para iguales y `! =` para no iguales:

In [8]:
3 == 3

True

In [9]:
4 != 4

False

Una cosa muy importante que debe saber es que Python trata *True* igual que el número uno, y *False* igual que el número cero. Para ver esto, probemos si ``True`` es igual al número uno:

In [10]:
True == 1

True

Esto será importante más adelante, cuando trabajemos con probabilidades y datasets.

## Variables

Una variable es un símbolo que representa otro valor (como "X" en álgebra). Podemos crear una variable asignándole un valor usando el operador `=`. Si luego escribimos el nombre de la variable, Python imprimirá su valor, siempre que el nombre de la variable sea la última entrada en la celda.

In [12]:
x = 4
x

4

La variable ahora representa el valor que contiene, por lo que podemos realizar operaciones en ella y obtener la misma respuesta que si usáramos dicho valor.

In [13]:
x + 3

7

In [14]:
x == 5

False

Podemos cambiar el valor de una variable simplemente asignándole un nuevo valor.

In [15]:
x = x + 1

In [16]:
x

5

## Librerías

Aunque Python tiene muchas características útiles, muchas de las características que necesitaremos no están contenidas en la biblioteca principal de Python, sino que provienen de bibliotecas de código abierto que han sido desarrolladas por varios miembros de la comunidad de Python.

Dos paquetes que usaremos ampliamente son [NumPy] (https://numpy.org/) y [Pandas] (https://pandas.pydata.org/). Estas bibliotecas son parte de la pila [SciPy] (https://www.scipy.org/), un grupo de bibliotecas de Python utilizadas para la computación científica.

En Python, para trabajar con una biblioteca, primero tenemos que *importarla* y especificar cómo vamos a llamar a las funciones de esa biblioteca (las funciones se explicarán con más detalle a continuación).

Así es como importaremos NumPy:

In [17]:
import numpy as np

Ahora, cuando invocamos una función NumPy, usaremos el prefijo ``np``. Esto se aclarará a continuación.

También importamos pandas, especificando ``pd`` como prefijo:

In [18]:
import pandas as pd

Después de importar una biblioteca, ahora puede acceder a todas sus funciones utilizando el prefijo especificado. Si desea obtener más información sobre las características de una biblioteca, puede encontrarlas usando la función ``help()``:

In [19]:
help(np.zeros)

Help on built-in function zeros in module numpy:

zeros(...)
    zeros(shape, dtype=float, order='C', *, like=None)
    
    Return a new array of given shape and type, filled with zeros.
    
    Parameters
    ----------
    shape : int or tuple of ints
        Shape of the new array, e.g., ``(2, 3)`` or ``2``.
    dtype : data-type, optional
        The desired data-type for the array, e.g., `numpy.int8`.  Default is
        `numpy.float64`.
    order : {'C', 'F'}, optional, default: 'C'
        Whether to store multi-dimensional data in row-major
        (C-style) or column-major (Fortran-style) order in
        memory.
    like : array_like
        Reference object to allow the creation of arrays which are not
        NumPy arrays. If an array-like passed in as ``like`` supports
        the ``__array_function__`` protocol, the result will be defined
        by it. In this case, it ensures the creation of an array object
        compatible with that passed in via this argument.
   

## Funciones

Una función es un operador que toma alguna entrada y da una salida basada en la entrada. Por ejemplo, digamos que tenemos un número y queremos determinar su valor absoluto. NumPy tiene una función llamada ``abs()`` que toma un número y genera su valor absoluto:

In [20]:
x = -3
np.abs(x)

3

La mayoría de las funciones toman una entrada como la función ``np.abs()`` (que llamamos un argumento), pero algunas también tienen palabras clave especiales que se pueden usar para cambiar el funcionamiento de la función. Por ejemplo, la función ``np.random.normal()`` genera números aleatorios a partir de una distribución normal (sobre la que aprenderemos más adelante). Eche un vistazo a la página de ayuda para esta función escribiendo ``help (np.random.normal)`` en la consola, lo que hará que aparezca una página de ayuda debajo. La primera sección de la página de ayuda para la función ``np.random.normal()`` muestra lo siguiente:

    normal(...) method of numpy.random.mtrand.RandomState instance
    normal(loc=0.0, scale=1.0, size=None)
    
    Draw random samples from a normal (Gaussian) distribution.
    
    The probability density function of the normal distribution, first
    derived by De Moivre and 200 years later by both Gauss and Laplace
    independently [2]_, is often called the bell curve because of
    its characteristic shape (see the example below).
    
    The normal distributions occurs often in nature.  For example, it
    describes the commonly occurring distribution of samples influenced
    by a large number of tiny, random disturbances, each with its own
    unique distribution [2]_.
    
    Parameters
    ----------
    loc : float or array_like of floats
        Mean ("centre") of the distribution.
    scale : float or array_like of floats
        Standard deviation (spread or "width") of the distribution. Must be
        non-negative.
    size : int or tuple of ints, optional
        Output shape.  If the given shape is, e.g., ``(m, n, k)``, then
        ``m * n * k`` samples are drawn.  If size is ``None`` (default),
        a single value is returned if ``loc`` and ``scale`` are both scalars.
        Otherwise, ``np.broadcast(loc, scale).size`` samples are drawn.
    
    Returns
    -------
    out : ndarray or scalar
        Drawn samples from the parameterized normal distribution.

También puede ver algunos ejemplos de cómo se usa la función mirando más abajo en la salida de ayuda. Por ejemplo, encontrará el texto:

    Draw samples from the distribution:
    
    >>> mu, sigma = 0, 0.1 # mean and standard deviation
    >>> s = np.random.normal(mu, sigma, 1000)

Podemos ver en la salida de ayuda (arriba) que la función np.random.normal tiene tres argumentos, loc o media, scale o desviación estándar y size o tamaño. Se muestra que son iguales a valores específicos.

    normal(loc=0.0, scale=1.0, size=None)
    
Esto significa que esos valores son la configuración predeterminada, de modo que si no hace nada, la función devolverá un único número aleatorio con una media de 0 y una desviación estándar de 1.

In [21]:
np.random.normal()

0.735558176097528

Si quisiéramos crear números aleatorios con una media y una desviación estándar diferentes (digamos media == 100 y desviación estándar == 15), entonces simplemente podríamos establecer esos valores en la llamada a la función. Supongamos que nos gustaría 5 números aleatorios de esta distribución:

In [22]:
my_random_numbers = np.random.normal(100, 15, 5)
my_random_numbers

array([99.61013538, 96.81795004, 94.42212767, 99.28361374, 85.45675272])

Verá que configuré la variable con el nombre ``my_random_numbers``. En general, siempre es bueno ser lo más descriptivo posible al crear variables; en lugar de llamarlos x o y, use nombres que describan el contenido real. Esto hará que sea mucho más fácil comprender lo que está sucediendo una vez que las cosas se pongan más complicadas.

## Arrays
Es posible que haya notado que los my_random_numbers creados anteriormente no eran como las variables que habíamos visto antes, contenían varios valores. Nos referimos a este tipo de variable como *array* o matriz.

Si desea crear su propia matriz nueva, puede hacerlo usando la función ``np.array()``:

In [29]:
my_array = np.array([4, 5, 6, 7])
my_array

array([4, 5, 6, 7])

Este tipo de matriz también se conoce como vector. Es una matriz de números que solo tiene una única dimensión, y puede tener cualquier número de elementos en esa única dimensión. Puede ser un vector de fila (como ``my_array`` arriba) o un vector de columna.

Puede acceder a los elementos individuales dentro de un vector utilizando corchetes junto con un número que se refiere a la ubicación dentro del vector. Estos valores de índice comienzan en 0, una convención de muchos lenguajes de programación a la que puede llevar un poco acostumbrarse.

Digamos que queremos ver el valor en el segundo lugar del vector:

In [30]:
my_array[1]

5

También puede ver un rango de posiciones, colocando las ubicaciones de inicio y final+1 con dos puntos en el medio. Por ejemplo, para ver los valores en segundo y tercer lugar:

In [31]:
my_array[1:3]

array([5, 6])

You can also change the values of specific locations using the same indexing:

In [32]:
my_array[2] = 7
my_array

array([4, 5, 7, 7])

## Matemática con matrices y vectores
Puede aplicar operaciones matemáticas a los elementos de una matriz de la misma manera que las aplica a variables regulares.
Digamos que queremos multiplicar cada elemento de la matriz por el número 5:


In [33]:
my_array = np.array([4, 5, 6])
my_array_times_five = my_array * 5
my_array_times_five

array([20, 25, 30])

También puede aplicar operaciones matemáticas en pares de vectores. En este caso, cada elemento coincidente se utiliza para la operación.

In [34]:
my_first_array = np.array([1, 2, 3])
my_second_array = np.array([10, 20, 20])
my_first_array + my_second_array

array([11, 22, 23])

También podemos aplicar operaciones lógicas a través de vectores; nuevamente, esto devolverá un vector con la operación aplicada a los pares de valores en cada posición.

In [35]:
array_a = np.array([1, 2, 3])
array_b = np.array([1, 2, 4])
array_a == array_b

array([ True,  True, False])

La mayoría de las funciones trabajarán con vectores como lo harían con un solo número. Por ejemplo, digamos que queremos obtener el seno trigonométrico para cada uno de un conjunto de valores. Podríamos crear un vector y pasarlo a la función ``np.sin()``, que devolverá tantos valores de seno como valores de entrada haya:

In [37]:
my_angle_values = np.array([0, 1, 2])
my_sin_values = np.sin(my_angle_values)
my_sin_values

array([0.        , 0.84147098, 0.90929743])

## Diccionarios
Hay otro tipo de variable en Python que es muy útil, que se conoce como *diccionario*. Un diccionario es como un contenedor que
almacena valores que están asociados con *claves* particulares. Se crea un diccionario utilizando corchetes ondulados; cada entrada debe incluir una clave y un valor (que puede ser cualquier tipo de variable, incluido otro diccionario), separados por un color. Por ejemplo, digamos que queremos almacenar las edades de tres personas:

In [38]:
ages = {"Lisa": 23, "Angela": 25, "Monique": 27}
ages

{'Lisa': 23, 'Angela': 25, 'Monique': 27}

To access the elements, we use the names of each field as an index

In [39]:
ages["Lisa"]

23

## Data Frames
A menudo, en un conjunto de datos tendremos varias variables diferentes con las que queremos trabajar. En lugar de tener una variable con nombre diferente que almacene cada una, a menudo es útil combinar todas las variables separadas en un solo paquete, que se conoce como Data Frame.

Si está familiarizado con una hoja de cálculo (por ejemplo, de Microsoft Excel), entonces ya tiene un conocimiento básico de un Data Frame.
Supongamos que tenemos valores de precio y millaje para tres tipos diferentes de automóviles. Podríamos comenzar creando una variable para cada uno, asegurándonos de que los tres autos estén en el mismo orden para cada una de las variables:

In [40]:
car_model = ("Ford Fusion", "Hyundai Accent", "Toyota Corolla")
car_price = np.array([25000, 16000, 18000])
car_mileage = np.array([27, 36, 32])

Luego, podemos combinarlos en un solo marco de datos, usando la función pd.DataFrame(). Me gusta usar "_df" en los nombres de los marcos de datos solo para dejar en claro que se trata de un marco de datos, por lo que lo llamaremos "cars_df":

In [41]:
data = {"Price": car_price, "Mileage": car_mileage}
cars_df2 = pd.DataFrame(data, index=car_model)
cars_df2

Unnamed: 0,Price,Mileage
Ford Fusion,25000,27
Hyundai Accent,16000,36
Toyota Corolla,18000,32


Cada una de las columnas del Data Frame contiene una de las variables, con el nombre que le dimos cuando creamos el Data Frame. Podemos acceder a cada una de esas columnas usando la misma indexación ``[]`` que usamos para acceder a las matrices, pero podemos usar los nombres de columna que
especificamos para el Data Frame. Por ejemplo, si quisiéramos acceder a la variable Mileage, combinaríamos el nombre del Data Frame
con el nombre de la variable de la siguiente manera:

In [42]:
cars_df2["Mileage"]

Ford Fusion       27
Hyundai Accent    36
Toyota Corolla    32
Name: Mileage, dtype: int32

Esto es como cualquier otro vector, ya que podemos referirnos a sus valores individuales usando corchetes como hicimos con los vectores regulares. Por ejemplo, si queremos el valor del millaje del automóvil en segundo lugar:

In [43]:
cars_df2["Mileage"][1]

36

Del mismo modo, puede realizar operaciones en el vector. Por ejemplo, es posible que deseemos elevar al cuadrado todos los valores de la columna "Price":

In [44]:
np.square(cars_df2["Price"])

Ford Fusion       625000000
Hyundai Accent    256000000
Toyota Corolla    324000000
Name: Price, dtype: int32

Digamos que no conocemos la organización del Data Frame, pero queremos ver el precio de un Toyota Corolla. Podemos usar el filtrado para obtener ciertos valores del Data Frame.

Si especifica el índice que corresponde a "Toyota Corolla", obtendrá todos los valores para esa fila del marco de datos. Para hacer esto, necesitamos usar el operador ``.loc`` en el Data Frame. El primer argumento del operador ``.loc`` se refiere a las filas en el Data Frame, mientras que el segundo se refiere a las columnas.

In [45]:
cars_df2.loc["Toyota Corolla"]

Price      18000
Mileage       32
Name: Toyota Corolla, dtype: int32

Para obtener solo el millaje, especifique la columna de millaje.

In [46]:
cars_df2.loc[["Toyota Corolla"], ["Mileage"]]

Unnamed: 0,Mileage
Toyota Corolla,32


También podemos filtrar por algunas características del coche.

In [47]:
cars_df2[(cars_df2["Mileage"] > 30) & (cars_df2["Price"] < 18000)]

Unnamed: 0,Price,Mileage
Hyundai Accent,16000,36


Los Data Frames son enormemente poderosos para manipular conjuntos de datos grandes y complejos, que a menudo es lo que estamos tratando en las estadísticas. Para obtener más información sobre Data Frames en pandas, consulte este [enlace](https://towardsdatascience.com/my-python-pandas-cheat-sheet-746b11e44368).

## 1.10 Trabajando con archivos de datos
Cuando hacemos estadísticas, a menudo necesitamos cargar los datos que analizaremos. Esos datos vivirán en un archivo en la computadora de uno o en Internet. Para este ejemplo, usemos un archivo alojado en Internet, que contiene los valores del producto bruto interno (PBI) de varios países del mundo.

Este archivo se almacena como un archivo de *valores separados por comas* (o CSV), lo que significa que los valores para cada una de las variables en el conjunto de datos están separados por comas. Hay tres variables: el rango relativo de los países, el nombre del país y su valor del PBI.

Podemos cargar el archivo usando la función ``pd.read_csv()``:

In [48]:
data_url = "https://raw.githubusercontent.com/psych10/psych10/master/notebooks/Session03-IntroToR/gdp.csv"
gdp_data = pd.read_csv(data_url)

Un Data Frame, como todas las variables de Python, es un *objeto*. Más adelante comentaremos más sobre la programación orientada a objetos, pero el punto importante por ahora es que los objetos pueden almacenar información y hacer cosas. Cada objeto tiene un conjunto de *métodos*, que denotamos usando un punto. Por ejemplo, el marco de datos tiene un método llamado ``.head()`` que nos mostrará las 5 filas superiores del marco de datos:

In [49]:
gdp_data.head()

Unnamed: 0,Rank,Country,GDP
0,1,Liechtenstein,141100
1,2,Qatar,104300
2,3,Luxembourg,81100
3,4,Bermuda,69900
4,5,Singapore,60500


Si queremos ver la lista de todos los métodos que están asociados con un objeto en particular, podemos usar la función ``dir()``:

In [50]:
dir(gdp_data)

['Country',
 'GDP',
 'Rank',
 'T',
 '_AXIS_LEN',
 '_AXIS_ORDERS',
 '_AXIS_REVERSED',
 '_AXIS_TO_AXIS_NUMBER',
 '_HANDLED_TYPES',
 '__abs__',
 '__add__',
 '__and__',
 '__annotations__',
 '__array__',
 '__array_priority__',
 '__array_ufunc__',
 '__array_wrap__',
 '__bool__',
 '__class__',
 '__contains__',
 '__copy__',
 '__deepcopy__',
 '__delattr__',
 '__delitem__',
 '__dict__',
 '__dir__',
 '__divmod__',
 '__doc__',
 '__eq__',
 '__finalize__',
 '__floordiv__',
 '__format__',
 '__ge__',
 '__getattr__',
 '__getattribute__',
 '__getitem__',
 '__getstate__',
 '__gt__',
 '__hash__',
 '__iadd__',
 '__iand__',
 '__ifloordiv__',
 '__imod__',
 '__imul__',
 '__init__',
 '__init_subclass__',
 '__invert__',
 '__ior__',
 '__ipow__',
 '__isub__',
 '__iter__',
 '__itruediv__',
 '__ixor__',
 '__le__',
 '__len__',
 '__lt__',
 '__matmul__',
 '__mod__',
 '__module__',
 '__mul__',
 '__ne__',
 '__neg__',
 '__new__',
 '__nonzero__',
 '__or__',
 '__pos__',
 '__pow__',
 '__radd__',
 '__rand__',
 '__rdivmod__',

Esto muestra una larga lista de métodos; aprenderá más sobre muchos de estos a medida que avancemos en el curso.