# Introducción a `Python`

`Python` es un lenguaje de programación. Para trabajar con el lenguaje, se han desarrollado diferentes interfaces que mejoran el manejo del programa y facilitan el trabajo.

Nosotros utilizaremos **Google Colaboratory**, conocido como [Google Colab](https://colab.research.google.com/) o simplemente, Colab, basado en el entorno Jupyter, originalmente desarrollado para `Python` y que se ha convertido en interfase universal de muchos lenguajes de programación.

En este entorno, podemos escribir código y ejecutarlo. También podemos escribir en celdas de texto, lo que nos permite intercalar explicaciones a nuestros cálculos o cualquier otro contenido escrito.


Haciendo click en la barra de opciones a la izquierda sobre la primera opción de `índice` podemos tener la visión de conjunto del cuaderno

## Cómo usar este cuaderno
- Si has abierto un cuaderno ya creado, del que te han pasado un enlace, y estás abriéndolo por primera vez, sigue estos pasos:
  1. Guarda una copia en tu carpeta de Google Drive. Para ello, vete a `Archivo/Guardar una copia en Drive` y guárdalo.
  2. Una vez guardada la copia, puedes cambiar el nombre en 'Archivo/Cambiar nombre`, o bien directamente haciendo *click* sobre el nombre en la parte superior de la hoja.

- Si vas a crear una hoja nueva (en blanco) mediante el enlace a Colab, sigue estos pasos:
  1. Abre la hoja de Colab escribiendo en la barra de direcciones del navegador: `colab.to`
  2. Guarda una copia en `Archivo/Guardar una copia como`
  3. Renombra la hoja en `Archivo/Cambiar nombre` usando el nombre que quieras

## Primeros pasos

Colab utiliza el entorno [jupyter](https://jupyter.org/). En el entorno **jupyter**, el texto se introduce en **celdas**.

Hay dos tipos de **celdas**: texto y código. En la parte superior de la ventana, puedes elegir el tipo que quieres insertar haciendo *click* en `+ Código` o bien en `+ Texto`

Para editar una **celda de texto** existente, haz doble click sobre ella. Ahora puedes escribir usando las convenciones de código **markdown**. Cuando hayas terminado, ejecuta la celda para que Colab formatee y presente el texto.

Para ejecutar una **celda de código**, haz click sobre ella.

- `Shift-Enter`ejecuta el código *y pasa a la siguiente celda*.
- `Ctrl-Enter`ejecuta el código *y permanece en la misma celda*

Recuerda también que, en buenas prácticas, las celdas de código deben ejecutarse en orden secuencial desde el principio. No es imprescindible, puedes ir a cualquier celda y ejecutarla, pero si tiene alguna dependencia de celdas anteriores, obtendrás un mensaje de error si estas celdas no se han ejecutado previamente.

Si la ejecución de una celda de código produce un error, no te preocupes, no tiene consecuencias graves. Simplemente, edita el código y corrige el error. En muchos casos, Google Gemini te puede ayudar a detectar los errores en el código y reescribirlo correctamente.

## Cálculos simples con python
En su forma más básica,`Python`se puede utilizar como una simple calculadora, utilizando los siguientes operadores aritméticos:

Adición: $+$  (Ejemplo: $2+2$)

Resta: $-$ (Ejemplo: $2-2$)

Multiplicación: $*$ (Ejemplo: $2*2$)

División: $/$ (Ejemplo: $2/2$)

Exponenciación: ** (Ejemplo: $2$**$2$)

Prueba a ejecutar las siguientes celdas:

In [None]:
2+2

In [None]:
2-2

In [None]:
2*2

In [None]:
2/2

In [None]:
2**2

In [None]:
(3*4)/2

## Creación y asignación de variables

Una variable permite almacenar un valor (por ejemplo, 4) o un objeto (por ejemplo, una descripción de función). Más tarde se puede usar el nombre de esta variable para acceder fácilmente al valor o al objeto que está almacenado dentro de ella.

Podemos imaginar este concepto como una estantería llena de celdas vacías, en las cuales podemos colocar diferentes objetos: números, letras, frases, etc La variable es el espacio que almacena un valor, y que podemos *llamar* u obtener simplemente escribiendo su nombre.

En python, una variable es un *objeto*. Podemos asignar *valores* a ese objeto, como si colocásemos libros en nuestra estantería. Esta asignación se hace siempre con el operador de asignación `=`, en la forma
```
nombre_de_objeto = valor
```
Por ejemplo, asignaremos un valor 4 a una variable que se llame `mi_var` con el operador de asignación de la siguiente forma:
```
mi_var = 4
```
Recuerda que ahora estamos en una celda de texto; prueba a hacer la asignación en la celda de código a continuación, añadiendo el operador de asignación y ejecutando la celda con `Mayus-Intro`:

In [None]:
mi_var 4

Una vez que asignamos un valor a una variable,`Python`recuerda su valor hasta que lo cambiemos mediante una nueva asignación, borremos la variable, o finalicemos nuestra sesión.

Para ver el contenido del objeto(lo que hemos almacenado en `mi_var`), escribimos el nombre y ejecutamos la celda:

In [None]:
mi_var

## Cómo establecer los nombres de variables

Para facilitar la legibilidad del código, los nombres de variables en`Python`deben cumplir algunas normas generales. Buscaremos siempre que los nombres de los objetos sean descriptivos, por lo que necesitamos una forma de unir varias palabras.

Las convenciones más aceptadas para la designación de nombres de variables en Python se basan principalmente en la **PEP 8**, la guía de estilo oficial para el código Python. Aquí te resumo los puntos clave:

1.  **Snake Case (Recomendado para variables y funciones):**
    * Para nombres de variables y funciones que constan de varias palabras, se utiliza **`snake_case`**, donde las palabras se escriben en minúscula y se separan por guiones bajos.
    * Ejemplos: `mi_variable`, `nombre_completo`, `calcular_total`.

2.  **Camel Case (Para clases):**
    * Para nombres de **clases**, se utiliza **`CamelCase`** (también conocido como PascalCase), donde cada palabra comienza con mayúscula y no hay separadores.
    * Ejemplos: `MiClase`, `GestionDeUsuarios`, `HttpRequest`.

3.  **Constantes (Mayúsculas con guiones bajos):**
    * Para constantes (variables cuyo valor no debería cambiar durante la ejecución del programa), se utiliza **`ALL_CAPS`** con guiones bajos para separar las palabras.
    * Ejemplos: `MAX_VALOR`, `PI`, `TASA_INTERES`.

4.  **Reglas generales (obligatorias por el lenguaje):**
    * **Longitud:** Las variables pueden tener cualquier longitud.
    * **Caracteres permitidos:** Pueden contener letras (mayúsculas y minúsculas), números y guiones bajos (`_`).
    * **No pueden empezar con un número:** Un nombre de variable no puede comenzar con un dígito.
    * **Sensibilidad a mayúsculas y minúsculas:** Python distingue entre mayúsculas y minúsculas. `mi_variable` y `Mi_Variable` son nombres de variables diferentes.
    * **Evitar palabras reservadas:** No se pueden usar palabras reservadas de Python (como `if`, `else`, `for`, `while`, etc.) como nombres de variables.
    * **No usar caracteres especiales:** No se permiten espacios, signos de puntuación u otros símbolos especiales.

5.  **Recomendaciones de estilo:**
    * **Nombres descriptivos:** Elige nombres de variables que sean claros y descriptivos, que reflejen su propósito en el programa. Esto mejora la legibilidad del código.
    * **Evitar nombres de una sola letra:** A menos que sean contadores simples (`i`, `j`, `k` en bucles) o iteradores, es mejor evitar nombres de variables de una sola letra.
    * **Evitar nombres que se confundan:** Ten cuidado con letras que pueden confundirse fácilmente, como la `l` minúscula y el número `1`, o la `O` mayúscula y el número `0`.
    * **Guiones bajos al principio (`_nombre`):** Un solo guion bajo al principio (`_`) suele indicar que una variable o función es "interna" o "no pública" dentro de un módulo o clase. Es una convención, no una restricción estricta.
    * **Dobles guiones bajos al principio (`__nombre`):** Los dobles guiones bajos al principio de un nombre de atributo de clase (`__nombre`) activan el "name mangling" (mutilación de nombre) de Python, que hace que el atributo sea más difícil de acceder directamente desde fuera de la clase, actuando como una forma de "privacidad".

Seguir estas convenciones, especialmente las de la PEP 8, ayuda a que tu código sea más consistente, legible y fácil de entender por otros desarrolladores (y por ti mismo en el futuro).

Usemos un nombre realmente largo para designar a una variable:

In [None]:
este_es_un_nombre_realmente_largo = 5.3

Ahora recuperemos el valor que hemos almacenado

In [None]:
este_es_un_nombre_realmente_largo

Recuerda que`Python`utiliza la escritura anglosajona para la separación de decimales, usando un punto, y no una coma como en España. ¿Qué pasaría si utilizamos una coma para separar los decimales?

In [None]:
mi_var = 2,5

`Python` acepta la asignación, pero cuando investigamos la variable, el resultado es diferente de lo que esperábamos, no obtenemos un valor numérico:

In [None]:
mi_var

`Python` ha entendido que estábamos creando una *tupla* de dos valores (2 y 5)
(en `Python`, una *tupla* es una colección ordenada e inmutable de elementos)

Para `Python` las mayúsculas y minúsculas son diferentes: `mi_var` y `mi_Var` son variables diferentes.

En una variable `Python` podemos almacenar también texto:

In [None]:
mi_var = "Esto es una frase 12345"

`Python` almacena esta *cadena alfanumérica* exactamente igual que antes hizo con los valores numéricos:

In [None]:
mi_var

'Esto es una frase 12345'

In [None]:
mi_var = 123.45

In [None]:
mi_var

123.45

In [None]:
mi_var*5

617.25

Para almacenar una *cadena alfanumérica* necesitamos encerrarla entre comillas, ya sean sencillas o dobles. De hecho, si almacenamos un número entre comillas, `Python` no lo identificará como un número, sino como un texto:

In [None]:
mi_var = "123.45"

In [None]:
mi_var

'123.45'

In [None]:
mi_var*5

'123.45123.45123.45123.45123.45'

Como ahora `mi_var` es una cadena de letras,`Python` interpreta `mi_var*5`no como una multiplicación, sino como una instrucción para repetir esa cadena de caracteres cinco veces.

En el ejemplo que acabamos de hacer, seguro que te has dado cuenta  de que`Python`permite **reutilizar** los objetos simplemente reasignándoles el valor correspondiente. Al hacerlo, perdemos el valor original y lo sustituimos por el nuevo valor.

Hay que tener atención con las reglas de escritura: para asignar un texto a un objeto debemos tener cuidado de *cerrar* las comillas, si no lo hacemos,`Python` nos advertirá del error:

In [None]:
mi_var = "Esto es una cadena alfanumerica que no hemos cerrado

### Algunos ejercicios

Intenta detectar los errores en las siguientes celdas de código:

In [None]:
mi_variable = 10
mi_varıable

In [None]:
mi_var = 5
Mi_Var

Podemos asignar un objeto a otro objeto con el operador de asignación:

In [None]:
x = 5
y = 3

In [None]:
x + y

In [None]:
y = x

In [None]:
x + y

Supongamos que tenemos 5 peras y 4 manzanas. Crea una variable que se llame `fruta` que sume el total de unidades de fruta que tenemos, insertando debajo de esta celda todas las celdas de código que necesites (Pista: ¡En `Python` sí podemos sumar `peras` con `manzanas`!)

In [None]:
# Celda para el ejercicio de las frutas
peras = 5
manzanas = 4
fruta = peras + manzanas
print(fruta)

## Los tipos de datos

Hemos visto que `Python` puede trabajar con diferentes tipos de datos, tales como números y textos.

Los valores decimales como 4.5 se llaman **flotantes**(`float`).
Los números enteros como 4 se llaman **enteros**(`ìnt`). Los valores con dos alternativas como VERDADERO o FALSO se denominan **booleanos**(`bool` o `logical`).
Los valores de texto (o cadena alfanumérica) se denominan **cadenas de caracteres**.  También se les llama simplemente **cadenas**.
Las comillas en el editor indican que "un texto entre comillas" es una *cadena de caracteres*. En `Python`, una cadena de caracteres puede escribirse entre comillas dobles, como `"pera"` o simples, como `'pera'`

Algunos ejemplos:

In [None]:
mi_var_numero = 4.5
mi_var_texto = "esto es un texto"
mi_var_texto_2 = 'esto también es un texto'
mi_var_logica = False

Las variables **lógicas** pueden tomar los valores `True` o `False` (recuerda que las mayúsculas son significativas en `Python`: `False` no es lo mismo que `false` o `FALSE`). `Python` responde también con un valor lógico cuando hacemos una *evaluación lógica*. Por ejemplo,

In [None]:
mi_var_numero == 4.5

In [None]:
mi_var_texto == 4.5

Como en `Python` se usa `=`  como operador de asignación, el operador lógico que prueba una igualdad es `==`, un doble igual, y no un `=`, un igual sencillo.

Veamos otros dos ejemplos que proporcionan una respuesta de valor lógico:

In [None]:
mi_var_numero == 10

In [None]:
mi_var_numero > 5

In [None]:
mi_var_numero != 5 # el operador != significa "no es igual a"

## Las Funciones en `Python`: ¿Qué son y por qué las usamos?



Hasta ahora hemos usado operadores aritméticos para realizar cálculos básicos y hemos asignado valores a variables. Pero, ¿qué pasa si queremos realizar tareas más complejas o repetir una misma operación muchas veces? Aquí es donde entran las **funciones**.

Una función es un bloque de código organizado y reutilizable que se utiliza para realizar una única acción relacionada. Piensa en una función como una "receta" o un "mini-programa" que encapsula una serie de pasos. En lugar de escribir esos pasos una y otra vez, simplemente "llamamos" a la función por su nombre.

**¿Por qué son útiles las funciones?**

- **Reutilización de Código:** Evitan tener que escribir el mismo código varias veces.
- **Modularidad:** Dividen el programa en partes más pequeñas y manejables.
- **Claridad:** Hacen el código más fácil de leer y entender.

`Python` ya trae consigo muchas **funciones integradas (*built-in functions*)** que podemos usar directamente. Veamos algunos ejemplos muy comunes:

### `print()`: Mostrar información

Esta función ya la hemos usado. Nos permite mostrar valores, texto o el contenido de variables en la consola

In [None]:
print("¡Hola, esto es una función!")
mi_nombre = "Juan"
print("Mi nombre es:", mi_nombre)

¡Hola, esto es una función!
Mi nombre es: Juan


### `len()`: Obtener la longitud
Esta función nos devuelve el número de elementos de un objeto, como el número de caracteres en una cadena de texto o el número de elementos en una lista.

In [None]:
frase = "Programar en Python es divertido"
longitud_frase = len(frase)
print("La frase tiene", longitud_frase, "caracteres.")

mi_lista_numeros = [10, 20, 30, 40]
print("Mi lista tiene", len(mi_lista_numeros), "elementos.")

### `type()`: Conocer el tipo de dato
Útil para verificar qué tipo de dato tiene una variable.

In [None]:
mi_numero = 100
mi_texto = "Cien"
mi_booleano = True

print(type(mi_numero))
print(type(mi_texto))
print(type(mi_booleano))

### ¿Cómo funcionan las funciones? Argumentos y Retorno



- **Argumentos:** Muchas funciones necesitan información para poder trabajar. Esta información se les pasa entre paréntesis, y se llaman **argumentos**. Por ejemplo, a `print()` le pasamos lo que queremos mostrar.
- **Retorno de Valores:** Algunas funciones realizan un cálculo o una operación y nos devuelven un resultado. Por ejemplo, `len()` nos devuelve un número.

Entender las funciones es clave, porque las librerías que usaremos a continuación son, en esencia, grandes colecciones de funciones especializadas.

## Importando Herramientas: Bibliotecas y Módulos



Python es un lenguaje muy potente, pero su verdadera fuerza reside en su vasto ecosistema de **bibliotecas** (también llamadas módulos o paquetes).

Una **biblioteca** es una colección de código (funciones, clases, etc.) escrito por otros programadores y disponible para que tú lo uses en tus propios proyectos. Imagina que son "cajas de herramientas" especializadas:

- ¿Necesitas hacer cálculos matemáticos complejos? Hay una librería para eso.
- ¿Necesitas manipular datos en tablas? Hay una librería para eso.
- ¿Necesitas crear gráficos? ¡También hay librerías para eso!

Usar librerías nos permite evitar "reinventar la rueda", ahorrando mucho tiempo y esfuerzo, y aprovechando código que ya ha sido probado y optimizado.

Para poder usar las funciones y herramientas que están dentro de una librería, primero debemos **importarla** a nuestro entorno de trabajo. La forma más común de hacerlo es con la instrucción `import`.

### Sintaxis de `import`



La sintaxis básica es:

```
import nombre_de_la_libreria
```

Sin embargo, para las librerías de análisis de datos, es muy común y recomendado usar un **alias** (un nombre corto) para hacer el código más conciso y fácil de leer. Esto se hace con la palabra clave `as`:

```
import nombre_de_la_libreria as alias
```

Ahora vamos a importar las librerías que serán esenciales para trabajar con datos, realizar cálculos estadísticos y crear gráficos en Python.

In [None]:
# Importando las librerías fundamentales para el análisis de datos

# Pandas: Es la librería principal para trabajar con estructuras de datos tabulares
#         como Series (vectores) y DataFrames (tablas).
import pandas as pd

# NumPy: Proporciona soporte para arreglos (arrays) y matrices multidimensionales,
#        además de funciones matemáticas de alto nivel. Pandas se construye sobre NumPy.
import numpy as np

# Matplotlib.pyplot: Es la librería base para crear gráficos en Python.
#                    Seaborn la usa "por debajo" para dibujar.
import matplotlib.pyplot as plt

# Seaborn: Es una librería de visualización de datos de alto nivel
#          basada en Matplotlib. Facilita la creación de gráficos estadísticos atractivos.
import seaborn as sns

print("¡Librerías principales para el análisis de datos importadas correctamente!")
print("Ahora podemos acceder a sus funciones usando sus alias (pd, np, plt, sns).")

Una vez que hemos importado una librería con un alias (por ejemplo, `pandas as pd`), para usar una función de esa librería, escribimos el alias seguido de un punto y el nombre de la función: `pd.nombre_de_la_funcion()`.

## Las principales estructuras de datos en Python para el análisis



Ahora que entendemos las funciones y cómo importar librerías, podemos introducir las estructuras de datos que nos permitirán organizar y manipular nuestros datos de manera eficiente. Las dos más importantes en el contexto del análisis de datos con Python (y con la librería Pandas) son las **Series** y los **DataFrames**.



### Series de Pandas (El "Vector" en Python para datos)



Si en otros lenguajes de programación o herramientas estadísticas has trabajado con el concepto de "vector" (una secuencia de valores de un mismo tipo), el equivalente más directo en Python, usando Pandas, es una **Serie**.

- **Concepto:** Una Serie de Pandas es un arreglo unidimensional (como una columna de una hoja de cálculo o un vector). Puede contener cualquier tipo de dato (números enteros, flotantes, texto, booleanos, etc.) y tiene un índice asociado para acceder a sus elementos.

**Creación de una Serie:** Podemos crear una Serie a partir de una lista de Python.

In [None]:
# Crear una lista de edades
lista_edades = [25, 30, 22, 35, 28, 40, 33, 29]

# Convertir la lista a una Serie de Pandas
# Usamos 'pd.' porque la función Series() viene de la librería Pandas
edades_serie = pd.Series(lista_edades)

print("Mi Serie de Edades:")
print(edades_serie)

**Operaciones Básicas con Series:** Las Series tienen muchas funciones y métodos útiles. Por ejemplo, podemos calcular la media:

In [None]:
print("\nEdad promedio:", edades_serie.mean()) # Usando el método .mean() de la Serie
print("Edad máxima:", edades_serie.max())
print("Edad mínima:", edades_serie.min())

### DataFrames de Pandas (La "Tabla" o "Hoja de Cálculo")



El **DataFrame** es la estructura de datos más importante y utilizada en Pandas para el análisis de datos. Es el equivalente a una tabla en una base de datos, una hoja de cálculo de Excel, o un "data frame" en R.

- **Concepto:** Un DataFrame es una estructura bidimensional (filas y columnas). Piensa en ella como una colección de Series (columnas) que comparten el mismo índice (las filas). Cada columna en un DataFrame es una Serie de Pandas.

**Creación de un DataFrame (a partir de un diccionario):** Una forma sencilla de crear un DataFrame pequeño es a partir de un diccionario de Python, donde las claves del diccionario se convierten en los nombres de las columnas y los valores son listas que se convierten en las columnas.

In [None]:
# Crear un diccionario con datos
datos_alumnos = {
    'Nombre': ['Ana', 'Luis', 'Marta', 'Pedro', 'Sofía'],
    'Edad': [24, 30, 28, 35, 26],
    'Ciudad': ['Madrid', 'Barcelona', 'Valencia', 'Sevilla', 'Málaga'],
    'Calificación': [8.5, 7.2, 9.1, 6.8, 8.9]
}

# Crear un DataFrame a partir del diccionario
df_alumnos = pd.DataFrame(datos_alumnos)

print("\nDataFrame de Alumnos:")
print(df_alumnos)

**Visualización y exploración básica de DataFrames:**

Es fundamental poder echar un vistazo rápido a los datos una vez que están cargados en un DataFrame.

- `df.head()`: Muestra las primeras 5 filas (útil para ver la estructura).
- `df.tail()`: Muestra las últimas 5 filas.
- `df.info()`: Proporciona un resumen conciso del DataFrame, incluyendo el número de entradas, columnas, tipos de datos no nulos y uso de memoria.
- `df.describe()`: Genera estadísticas descriptivas (conteo, media, desviación estándar, etc.) de las columnas numéricas.

In [None]:
print("\nPrimeras 3 filas del DataFrame de alumnos:")
print(df_alumnos.head(3)) # Podemos especificar el número de filas

print("\nInformación del DataFrame de alumnos:")
df_alumnos.info()

print("\nEstadísticas descriptivas del DataFrame de alumnos:")
print(df_alumnos.describe())

**Selección de Columnas en un DataFrame:**

Para trabajar con una columna específica de un DataFrame, la seleccionamos usando corchetes `[]` y el nombre de la columna entre comillas. El resultado será una Serie de Pandas.

In [None]:
# Seleccionar la columna 'Edad'
edades_alumnos = df_alumnos['Edad']
print("\nColumna 'Edad' (como Serie):")
print(edades_alumnos)

# Calcular la media de la columna 'Calificación'
media_calificacion = df_alumnos['Calificación'].mean()
print(f"\nLa calificación promedio de los alumnos es: {media_calificacion:.2f}")

## El *DataFrame* (continuación con ejemplo real)



Ahora que conocemos los `DataFrames`, podemos entender mejor cómo leer datos reales. El marco de datos o *DataFrame* es el objeto más útil y más usado en el análisis de datos. Consiste en una estructura de dos dimensiones, formada por una serie de vectores de igual longitud, igual que una tabla de una hoja de cálculo, en la que cada columna es una variable y cada fila, un caso, observación o individuo. Algunas bibliotecas `Python` incluyen *DataFrames* de muestra, que son útiles para entender cómo están formados.

Veamos uno de ellos, el famoso conjunto de datos **[iris](https://es.wikipedia.org/wiki/Conjunto_de_datos_flor_iris)**, creada por el investigador y estadístico [Ronald Fisher](https://es.wikipedia.org/wiki/Ronald_Fisher), que contiene un conjunto de medidas realizadas sobre flores del género *Iris* realizadas por este investigador en los años 30 del siglo XX.

Para cargar este conjunto de datos de ejemplo, vamos a utilizar una función de la librería `seaborn` que ya importamos:

In [None]:
# Cargamos el dataset 'iris' usando una función de Seaborn
df_iris_sns = sns.load_dataset('iris')

print("Primeras 5 filas del dataset Iris:")
print(df_iris_sns.head())

La función `head()` es útil para presentarnos sólo el *encabezado* del *data frame*. Veamos la estructura de este *data frame* más a fondo:

In [None]:
print("\nInformación general del DataFrame Iris:")
df_iris_sns.info()

In [None]:
print("\nEstadísticas descriptivas de las columnas numéricas del DataFrame Iris:")
print(df_iris_sns.describe())

Para utilizar una columna de un dataframe, la seleccionamos por su nombre:

In [None]:
print("\nContenido de la columna 'sepal_length':")
print(df_iris_sns["sepal_length"])

Ahora que tenemos una columna seleccionada (que es una Serie de Pandas), podemos aplicar directamente funciones estadísticas sobre ella:

In [None]:
# Calculamos la media de la columna 'sepal_length'
media_sepal_length = df_iris_sns["sepal_length"].mean()
print(f"\nLa longitud media del sépalo es: {media_sepal_length:.2f}")

In [None]:
# También podemos calcular la desviación estándar
desviacion_sepal_length = df_iris_sns["sepal_length"].std()
print(f"La desviación estándar de la longitud del sépalo es: {desviacion_sepal_length:.2f}")

Con nuestros DataFrames cargados y la comprensión de las Series, podemos realizar rápidamente cálculos estadísticos básicos sobre nuestras columnas numéricas. Pandas hace que esto sea muy sencillo.

- **Estadísticas Descriptivas Comunes:**
  - `.mean()`: Media
  - `.median()`: Mediana
  - `.std()`: Desviación estándar
  - `.min()`: Valor mínimo
  - `.max()`: Valor máximo
  - `.sum()`: Suma de todos los valores
  - `.count()`: Número de valores no nulos

Vamos a aplicar algunas de estas operaciones al DataFrame `df_iris_sns`:

In [None]:
print("Estadísticas de 'petal_width' en el DataFrame Iris:")
print(f"Media de petal_width: {df_iris_sns['petal_width'].mean():.2f}")
print(f"Mediana de petal_width: {df_iris_sns['petal_width'].median():.2f}")
print(f"Desviación estándar de petal_width: {df_iris_sns['petal_width'].std():.2f}")
print(f"Valor mínimo de petal_width: {df_iris_sns['petal_width'].min():.2f}")
print(f"Valor máximo de petal_width: {df_iris_sns['petal_width'].max():.2f}")
print(f"Número de observaciones de petal_width: {df_iris_sns['petal_width'].count()}")

## Visualización de Datos con Seaborn y Matplotlib



Una imagen vale más que mil palabras, y en el análisis de datos, la visualización es fundamental para entender patrones, distribuciones y relaciones en nuestros datos. En Python, las librerías `Matplotlib` y `Seaborn` son las herramientas estándar para crear gráficos.

- **Matplotlib.pyplot (alias `plt`):** Es la base, una librería de bajo nivel que da un control muy granular sobre cada aspecto del gráfico.
- **Seaborn (alias `sns`):** Construye sobre Matplotlib, ofreciendo una interfaz de alto nivel para crear gráficos estadísticos complejos y estéticamente agradables con menos código. Es ideal para explorar distribuciones, relaciones entre variables y comparaciones entre grupos.

Siempre importamos ambas, ya que Seaborn a menudo usa funciones de Matplotlib para mostrar y personalizar los gráficos (como `plt.title()` para el título o `plt.show()` para mostrar el gráfico).

### Ejemplo 1: Histograma de la longitud del sépalo (Distribución de una variable numérica)



Un histograma nos permite ver cómo se distribuyen los valores de una variable numérica.

In [None]:
# Crear un histograma de la columna 'sepal_length'
plt.figure(figsize=(8, 5)) # Define el tamaño de la figura (ancho, alto)
sns.histplot(data=df_iris_sns, x='sepal_length', kde=True) # kde=True añade una estimación de densidad
plt.title('Distribución de la Longitud del Sépalo') # Título del gráfico
plt.xlabel('Longitud del Sépalo (cm)') # Etiqueta del eje X
plt.ylabel('Frecuencia') # Etiqueta del eje Y
plt.grid(True, linestyle='--', alpha=0.7) # Añadir una cuadrícula opcional
plt.show() # Muestra el gráfico

### Ejemplo 2: Diagrama de dispersión de la longitud vs. ancho del sépalo (Relación entre dos variables numéricas)



Un diagrama de dispersión es excelente para visualizar la relación entre dos variables numéricas. Podemos añadir un color (`hue`) para diferenciar por una tercera variable categórica (como la especie de la flor).

In [None]:
# Crear un diagrama de dispersión de sepal_length vs. sepal_width
plt.figure(figsize=(9, 6))
sns.scatterplot(data=df_iris_sns, x='sepal_length', y='sepal_width', hue='species', s=80, alpha=0.7)
plt.title('Longitud vs. Ancho del Sépalo por Especie de Iris')
plt.xlabel('Longitud del Sépalo (cm)')
plt.ylabel('Ancho del Sépalo (cm)')
plt.legend(title='Especie') # Mostrar leyenda para la especie
plt.grid(True, linestyle='--', alpha=0.7)
plt.show()

### Ejemplo 3: Gráfico de cajas (Box Plot) de la longitud del pétalo por especie (Comparación de una numérica por una categórica)



Los box plots son útiles para visualizar la distribución de una variable numérica para diferentes categorías.

In [None]:
# Crear un box plot de petal_length agrupado por 'species'
plt.figure(figsize=(9, 6))
sns.boxplot(data=df_iris_sns, x='species', y='petal_length')
plt.title('Distribución de la Longitud del Pétalo por Especie')
plt.xlabel('Especie de Iris')
plt.ylabel('Longitud del Pétalo (cm)')
plt.grid(axis='y', linestyle='--', alpha=0.7) # Cuadrícula solo en el eje Y
plt.show()

## Cómo leer una hoja de cálculo en Google Colaborate

### Opción 1: Subir los datos al espacio de trabajo de Google Colaborate

Los pasos son los mismos tanto si queremos trabajar con un `CSV`o directamente con una hoja Excel:
1. Seleccionamos el icono de carpeta a la izquierda, que nos abre la barra lateral de `Archivos`
2. Hacemos click sobre el icono de la hoja con la flecha vertical, lo que nos abre una ventana de selección de archivos.
3. Seleccionamos la hoja de cálculo o `CSV`con la que vamos a trabajar y la subimos al espacio de trabajo de Google Colaborate

Una vez la hoja de cálculo o el `CSV` en nuestro espacio de trabajo, procedemos a leer los datos.


El mayor inconveniente de esta forma de trabajo es que cada vez que salimos de la sesión, Google Colab borra todos nuestros archivos del espacio de trabajo; cada vez que iniciemos una sesión, tendremos que repetir el proceso de subir nuestros datos al espacio de trabajo.

### Opción 2: Leer directamente los datos de nuestra carpeta de Google Drive
Esta es una opción mucho más cómoda que nos evita los pasos intermedios, ya que no necesitamos subir la hoja de cálculo al espacio de trabajo. En el ejemplo, vamos a suponer que tenemos nuestros datos en una hoja Excel denominada `mis_datos.xlsx`.



Veamos las dos alternativas:

In [None]:
import pandas as pd

# Montar Google Drive si tu archivo está allí
from google.colab import drive
drive.mount('/content/drive')

# Ruta de tu archivo Excel. Asegúrate de que esta ruta sea correcta.
# Si está en la raíz de tu Drive, sería algo así:
archivo_excel = '/content/drive/MyDrive/mis_datos.xlsx'

# Si el archivo está directamente en el entorno de Colab (subido o creado allí),
# la ruta podría ser simplemente el nombre del archivo si estás en el mismo directorio:
# archivo_excel = 'mis_datos.xlsx'


# Leer el archivo Excel, especificando la hoja
df = pd.read_excel(archivo_excel, sheet_name="Hoja1")

# Mostrar las primeras filas del DataFrame para verificar
print(df.head())

### Explicación de los pasos:

1.  **`import pandas as pd`**:

      * Esta línea importa la librería `pandas`, que es fundamental para el manejo y análisis de datos en Python. Es una convención llamarla `pd`.

2.  **Montar Google Drive (si es necesario)**:

      * Si tu archivo `mis_datos.xlsx` está almacenado en tu Google Drive, necesitas montar Drive en tu entorno de Colab para poder acceder a él. Las líneas `from google.colab import drive` y `drive.mount('/content/drive')` se encargan de esto.
      * Una vez montado, tus archivos de Drive serán accesibles a través de la ruta `/content/drive/MyDrive/`.

3.  **`archivo_excel = '/content/drive/MyDrive/mis_datos.xlsx'`**:

      * Aquí defines la **ruta completa** de tu archivo Excel.
      * **¡Importante\!** Debes ajustar esta ruta a la ubicación real de tu archivo.
          * Si lo tienes en Google Drive (y lo montaste), la ruta será similar a `/content/drive/MyDrive/nombre_de_tu_carpeta/mis_datos.xlsx`.
          * Si subiste el archivo directamente a Colab (usando el ícono de la carpeta en el panel izquierdo y luego "Subir"), y está en el directorio raíz de Colab, simplemente el nombre del archivo (`mis_datos.xlsx`) debería funcionar.

4.  **`df = pd.read_excel(archivo_excel, sheet_name="Hoja1")`**:

      * Esta es la función clave.
      * `pd.read_excel()` es el equivalente directo a `read_excel()` de `readxl` en R.
      * El primer argumento es la **ruta** al archivo Excel.
      * `sheet_name="Hoja1"` especifica qué hoja del libro de Excel quieres leer. Es el equivalente al argumento `sheet = "Hoja1"` en R. Puedes usar el nombre de la hoja o su índice (donde `0` es la primera hoja, `1` la segunda, etc.).

5.  **`print(df.head())`**:

      * Una vez que los datos se han cargado en un **DataFrame de pandas** (que es el objeto `df`), puedes usar `df.head()` para ver las primeras 5 filas y asegurarte de que los datos se cargaron correctamente. Esto es similar a `head(df)` en R.

Con estos pasos, tendrás tus datos de Excel cargados en un DataFrame de pandas, listos para ser manipulados y analizados en Python.

## Resumen
En esta charla hemos tomado contacto con`Python`y su utilización a través de un interface Jupyter, en este caso **Google Colaborate**.
Hemos visto los principales tipos de datos, particularmente el *DataFrame*, y hemos aprendido a leer datos que previamente se habían introducido en una hoja de cálculo.
Ya estamos listos para empezar a utilizar`Python`en el análisis de nuestros datos de producción.