## Intro a Pandas

**Importaci√≥n de la biblioteca pandas**

Este comando importa la biblioteca pandas y le asigna el alias pd, lo que facilita su uso en el c√≥digo.

In [None]:
import pandas as pd


**Lectura de archivos**

In [None]:
df = pd.read_csv("nombre_archivo.csv", index_col = 0)

# Usaremos la ruta relativa cuando no nos encontremos en el mismo directorio que el archivo.

``Creaci√≥n de objetos Series en pandas``

Las Series son estructuras de datos unidimensionales similares a listas. Para crear una serie:

**Serie vac√≠a**

In [None]:
# Serie vac√≠a: Crea una serie sin elementos, √∫til como base para agregar datos din√°micamente.

serie_vacia = pd.Series()


**Serie a partir de una lista**

In [None]:
# Serie a partir de una lista: Convierte una lista de valores en una Serie, asign√°ndole √≠ndices num√©ricos autom√°ticos desde 0.

lista = [23, 45, 17, 83, 67] # siendo en este caso el √≠ndice 0 = 23, 1 = 45, 2 = 17, etc
serie_lista1 = pd.Series(lista)


**Serie con √≠ndices personalizados**

In [None]:
# Serie con √≠ndices personalizados: Asigna etiquetas personalizadas a los √≠ndices, facilitando la referencia por nombre en lugar de por posici√≥n.

serie_lista3 = pd.Series(lista, index=["Lunes", "Martes", "Mi√©rcoles", "Jueves", "Viernes"])


**Selecci√≥n de Datos en DataFrames**

Un DataFrame es una estructura de datos bidimensional similar a una tabla.

**M√©todos loc e iloc** = Se usan en pandas para acceder a elementos de una Serie o un DataFrame.

``loc``: 
- Permite seleccionar datos por nombre de fila y columna.
- Se usa cuando los √≠ndices y columnas tienen etiquetas significativas

In [None]:
# Ejemplo loc

valor = df.loc["Martes", "Humedad"]


``iloc``: 
- Permite seleccionar datos por posici√≥n num√©rica.
- √ötil cuando se trabaja con posiciones en lugar de etiquetas.

In [None]:
# Ejemplo iloc

valor = df.iloc[1, 2]


**Diferencias entre loc e iloc**

In [None]:
# loc incluye el extremo final en los rangos:

df.loc[0:2]  # Incluye las filas 0, 1 y 2. En este caso se refiere a los √≠ndices


In [None]:
# iloc excluye el extremo final:

df.iloc[0:2]  # Incluye solo las filas 0 y 1. en este caso se refiere a la posici√≥n num√©rica.


**Manipulaci√≥n de DataFrames**

**1. Creaci√≥n de nuevas columnas**

In [None]:
# Ejemplo: Crea una nueva columna llamada 'Ciudad'

df['Ciudad'] = ['Madrid', 'Barcelona', 'Sevilla']

In [None]:
# Ejemplo: Crea una nueva columna llamada Precio_Doble con el doble del precio

df['Precio_Doble'] = df['Precio'] * 2


**2. Filtrado de datos con condiciones**

Extrae s√≥lo las filas que cumplen ciertas condiciones.


Sintaxis:

In [None]:
df[df["columna"] == "condici√≥n"]

In [None]:
# Ejemplo b√°sico:  Aqu√≠ se filtra el DataFrame para mostrar solo las filas donde la columna "Provincia" sea "Madrid".

df[df["Provincia"] == "Madrid"]

In [None]:
# Ejemplo (con el uso de operadores l√≥gicos (&, |, ~): En este caso, selecciona solo las filas donde el "precio" sea mayor a 10 Y las "ventas" sean mayores a 5000.

df_filtrado = df[(df['precio'] > 10) & (df['ventas'] > 5000)]

# Otros ejemplos con operadores l√≥gicos

df[(df["Provincia"] == "Madrid") & (df["Provincia"] == "Barcelona")] # Esto selecciona todas las filas donde la provincia es "Madrid" Y "Barcelona" (no devolver√≠a ninguna fila en este caso,ya que es imposible que sea de Madrid y de Barcelona a la vez)
df[(df["Provincia"] == "Madrid") | (df["Provincia"] == "Barcelona")] # Filtra el DataFrame para mostrar solo las filas donde la columna "Provincia" sea "Madrid" o "Barcelona".
df[~((df["Provincia"] == "Madrid") | (df["Provincia"] == "Barcelona"))]  # Filtrado inverso  ~ ‚Üí Negaci√≥n. Invierte el resultado de la condici√≥n.



- El operador ~ ‚Üí  Invierte el resultado de la condici√≥n, por lo que aqu√≠ seleccionamos las filas donde la provincia NO es ni Madrid ni Barcelona.
- El operador | (OR) ‚Üí Selecciona las filas donde la provincia es "Madrid" o "Barcelona".
- El operador AND ‚Üí  Selecciona todas las filas donde la provincia es "Madrid" Y "Barcelona" (no devuelve ninguna fila en este caso)


## Exploratory Data Analysys (EDA)

**M√©todos para explorar un DataFrame en pandas**

``1. Carga y visualizaci√≥n de datos``

In [None]:

pd.read_csv('archivo.csv') ‚Üí Carga datos desde un archivo CSV en un DataFrame.

df.head() ‚Üí Muestra las primeras filas del DataFrame. Entre par√©ntesis podemos indicarle el n√∫mero de filas que queramos que se muestren.

df.tail() ‚Üí Muestra las √∫ltimas filas del DataFrame. Entre par√©ntesis podemos indicarle el n√∫mero de filas que queramos que se muestren.

df.sample() ‚Üí Extrae aleatoriamente una fila o varias filas de un DataFrame. Entre par√©ntesis podemos indicarle el n√∫mero de filas que queramos que se muestren.

``2. Estructura y caracter√≠sticas del DataFrame``

In [None]:

df.shape ‚Üí Devuelve el n√∫mero de filas y columnas.

df.columns ‚Üí Muestra los nombres de las columnas.

df.info() ‚Üí Proporciona informaci√≥n general del DataFrame, incluyendo tipos de datos y valores nulos.

``3. An√°lisis de valores en columnas``

In [None]:

df['columna'].unique() ‚Üí Muestra los valores √∫nicos (es decir,los valores diferentes) de una columna.

df['columna'].value_counts() ‚Üí Cuenta la frecuencia de cada valor √∫nico en una columna.

df.select_dtypes(include=['tipo_dato']) ‚Üí Filtra columnas por tipo de dato. Podemos filtrar por 'int', 'float' u 'object' seg√∫n proceda.

``4. Manejo de valores nulos y duplicados``

In [None]:

df.isnull().sum() ‚Üí Cuenta los valores nulos en cada columna.

df.notnull().sum() ‚Üí Cuenta los valores no nulos en cada columna.

df.duplicated().sum() ‚Üí Cuenta las filas duplicadas en el DataFrame.

``5. Modificaci√≥n del DataFrame``

In [None]:
df.drop(columns=['columna_a_eliminar'], inplace=True) ‚Üí Elimina una o m√°s columnas.

# inplace = True : Indica que la operaci√≥n debe realizarse directamente sobre el DataFrame original sin necesidad de asignar el resultado a una nueva variable

# inplace = False : Devolver√≠a un nuevo DataFrame con la columna eliminada y el DataFrame original quedar√≠a sin cambios.

``6. Estad√≠sticas descriptivas``

In [None]:

df.describe() ‚Üí Proporciona estad√≠sticas b√°sicas (promedio, desviaci√≥n est√°ndar, percentiles, etc.) para columnas num√©ricas. 
# El resumen incluir√°; cuenta, media, desviaci√≥n est√°ndar, valor m√≠nimo, percentiles (25%, 50%, 75%) y valor m√°ximo.

df.describe(include="object") ‚Üí Muestra estad√≠sticas para columnas categ√≥ricas. 
# El resumen incluir√°; count/unique/top/freq

**Funciones para combinar DataFrames**

``pd.concat()`` ‚Üí Une DataFrames


Puede unir por filas (axis=0, uno debajo del otro) o por columnas (axis=1, uno al lado del otro).

In [None]:
# Ejemplo de pd.concat

result = pd.concat([df1, df2], axis=0, ignore_index=False)

# axis = 0 : Concatena filas. 
# axis = 1 : Concatena columnas.

# ignore_index = False : Los √≠ndices originales de los DataFrames se mantienen en el DataFrame resultante.
# ignore_index = True : Se reasignan los √≠ndices, es decir, ser√°n renumerados desde 0.


``pd.merge()`` ‚Üí Une DataFrames en base a columnas comunes.

Similar al JOIN en SQL, permite especificar c√≥mo unir (inner, left, right)

In [None]:
# Ejemplo de pd.merge

result = pd.merge(df1, df2, on='clave', how='inner')

# on : Columna com√∫n en ambos DataFrame que se utiliza de base para hacer la combinaci√≥n.
# how = 'inner' : Especifica el tipo de join que se va a realizar.

``df.join()`` ‚Üí Une DataFrames por √≠ndice.

Similar a merge, pero usa los √≠ndices en lugar de columnas.

In [None]:
# Ejemplo de df.join

result = df1.join(df2, on='clave')


**M√©todos para manipular DataFrames**

**1. Cambio de nombres, info y estructura**

``df.rename()`` ‚Üí Renombra columnas o √≠ndices.

In [None]:
# Ejemplo de rename

df.rename(columns={'columna_antigua': 'columna_nueva'}, inplace=True)

# inplace = False : Devuelve un nuevo DataFrame con los nombres de columna modificados, pero no modifica el original.
# inplace = True: Indica que el cambio debe hacerse directamente en el DataFrame original.

``df.set_index()`` ‚Üí Establece una columna espec√≠fica como el √≠ndice del DataFrame.

In [None]:
# Ejemplo de set_index()

df.set_index('columna', inplace=True)

# inplace = True : Indica que la operaci√≥n se debe realizar directamente en el DataFrame original, es decir, no se crear√° un nuevo DataFrame.
# inplace = False : Devuelve un nuevo DataFrame con la columna convertida en √≠ndice, pero el DataFrame original no se ver√° modificado.

``df.drop()`` ‚Üí Elimina columnas o filas del DataFrame. Usaremos el par√°metro 'columns' para las columnas e 'index'para las filas.

In [None]:
# Ejemplo de df.drop() para eliminar columnas
df.drop(columns=['columna'], inplace=True)

# Ejemplo de df.drop() para eliminar filas
df.drop(index=['fila'], inplace=True) # debes especificar el √≠ndice de la fila que deseas eliminar.

# inplace = True : Indica que la operaci√≥n debe realizarse directamente sobre el DataFrame original.
# inplace = False : Devuelve un nuevo DataFrame con las columnas eliminadas, pero el DataFrame original no se ve afectado.

``.astype("category")``‚Üí Convierte la columna en una columna de tipo categ√≥rico (columnas categ√≥ricas = no tienen orden espec√≠fico,son valores limitados y repetidos, y generamente son datos no num√©ricos)

In [None]:
df['columna'] = df['columna'].astype('category')

``.select_dtypes()`` ‚Üí Para seleccionar columnas basadas en su tipo de datos.

In [None]:
# Ejemplo de select_dtypes seleccionando las columnas de tipo category

df.select_dtypes(include=['category'])

# include=['category']: S√≥lo seleccionar√° las columnas de tipo categ√≥rico (si las hay).
# exclude=['category']: Seleccionar√° todas las columnas que no sean de tipo category.

``.dtypes``‚Üí Devuelve los tipos de datos de cada columna en el DataFrame.

Devuelve una Serie donde el √≠ndice son los nombres de las columnas y los valores son los tipos de datos correspondientes a cada columna.

In [None]:
df.dtypes

In [None]:
# Ejemplo output: 

Producto      object
Precio       float64
Disponible      bool
dtype: object

``.info()`` ‚Üí Proporciona un resumen conciso del DataFrame que incluye n¬∫ filas y columnas, nombre de las columnas, tipos de datos,n¬∫valores nulos y uso de memoria.

In [None]:
df.info()

In [None]:
# Ejemplo output

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3         # n¬∫ filas (RangeIndex: 4 entries, 0 to 3 indica que hay 4 filas, indexadas desde 0 hasta 3.)
Data columns (total 3 columns):       # n¬∫ columnas (Data columns (total 3 columns)
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   Producto   4 non-null      object  # nombre de columnas (producto/precio/disponible) y su tipo de dato (object/float/bool)
 1   Precio     4 non-null      float64
 2   Disponible 4 non-null      bool   
dtypes: bool(1), float64(1), object(1)  # tipo de datos
memory usage: 160.0+ bytes              # uso de memoria

``.columns`` ‚Üí Devuelve una lista o √≠ndice de los nombres de las columnas del DataFrame.

In [None]:
df.columns

``.isnull()`` ‚Üí Se utiliza para identificar valores nulos en un DataFrame o Serie.

In [None]:
result = df.isnull()

In [None]:
# Ejemplo .isnull()

# 1. Se crea un DataFrame con algunos valores nulos para el ejemplo
data = {'A': [1, 2, None, 4], 'B': [None, 2, 3, 4]}
df = pd.DataFrame(data)

# Usamos isnull para identificar valores nulos
result = df.isnull()

print(result)

# Devolver√° un output de True/False

       A      B
0  False   True  # En la primera fila: En la columna A, el valor es 1 (no nulo), por lo devuelve False. En la columna B, el valor es None (nulo), por lo que devuelve True.
1  False  False  # En la segunda fila: En la columna A, el valor es 2 (no nulo), por lo devuelve False. En la columna B, el valor es 2 (no nulo), por lo que devuelve False.
2   True  False  # En la tercera fila: En la columna A, el valor es None (nulo), por lo devuelve True. En la columna B, el valor es 3 (no nulo), por lo devuelve False.
3  False  False

``.isnull().sum()`` ‚Üí Para contar la cantidad de valores nulos en cada columna del DataFrame.

In [None]:
df.isnull().sum()

**2. Manipulaci√≥n de texto en columnas**

``.str.lower()`` ‚Üí Convierte a min√∫sculas.

In [None]:
df['columna'] = df['columna'].str.lower()

``.str.split()`` ‚Üí Divide texto en partes utilizando un delimitador.

In [None]:
df['columna'] = df['columna'].str.split(',') # en este caso se utiliza como delimitar la ','

In [None]:
# Ejemplo de str.split ()

# Creamos un DataFrame con una columna de texto
data = {'Frutas': ['Manzana,Pl√°tano,Naranja', 'Fresa,Mel√≥n', 'Uva,Peras,Kiwi']}
df = pd.DataFrame(data)

# Usa str.split(',') para dividir los elementos de la columna 'Frutas' donde encuentra una coma y lo convierte en listas de palabras
df['Frutas'] = df['Frutas'].str.split(',')

print(df)

# Output 

Frutas
0  [Manzana, Pl√°tano, Naranja]
1  [Fresa, Mel√≥n]
2  [Uva, Peras, Kiwi]



``.str.replace()`` ‚Üí Sustituye valores en una cadena.


In [None]:
df['columna'] = df['columna'].str.replace('viejo', 'nuevo') 

In [None]:
# Ejemplo str.replace()

# Crea un DataFrame con una columna de nombres
data = {'Nombres': ['Juan', 'Ana', 'Juan', 'Pedro']}
df = pd.DataFrame(data)

# Reemplaza 'Juan' por 'Carlos'
df['Nombres'] = df['Nombres'].str.replace('Juan', 'Carlos')

print(df)

# Output (sustituir√° donde aparec√≠a Juan por Carlos)

Nombres
0   Carlos
1      Ana
2   Carlos
3    Pedro


``.map():`` ‚Üí Reemplaza los valores de una serie utilizando un diccionario o una funci√≥n. Es muy √∫til para hacer mapeos (sustituir valores) de manera r√°pida.

In [None]:
df['columna'].map({valor_original: valor_nuevo})

In [None]:
# Ejemplo de .map() sustituyendo 1 por 'A' y 2 por 'B'

df['columna'].map({1: 'A', 2: 'B'})

# Ejemplo de .map(): aqu√≠ asignamos un nombre de variable para el diccionario llamada 'mapa' para hacer m√°s c√≥moda la sintaxis del map()

mapa = {0:"Fracaso", 1: "Exito"}

df["success"] = df["success"].map(mapa)


``.replace()`` ‚Üí Sustituye valores espec√≠ficos en una columna con otros valores.

In [None]:
df['columna'].replace({1: 'Uno', 2: 'Dos'})

# El valor 1 ser√° reemplazado por 'Uno'.
# El valor 2 ser√° reemplazado por 'Dos'.

**3. M√©todos espec√≠ficos para filtrar**

``.isin()``  ‚Üí Se utiliza para verificar si los valores de una columna est√°n presentes en una lista.

In [None]:
df["columna"].isin(['valor1', 'valor2']) 

# Devuelve True si el valor de esa fila est√° presente en la lista y False si no lo est√°.

``.between()`` ‚Üí Filtra por rango de valores.

In [None]:
df['columna'].between(lower, upper, inclusive='both')

# lower: El l√≠mite inferior del rango (valor m√≠nimo)
# upper: El l√≠mite superior del rango (valor m√°ximo)
# inclusive: Especifica si los l√≠mites lower y upper son inclusivos o no. Puede ser 'both'(ambos),'neither'(ninguno),'left'(minimo),'right'(maximo)

In [None]:
# Ejemplo .between()
df["columna"].between(5, 10) 

# lower:  5
# upper: 10

``.str.contains()`` ‚Üí Filtra si un texto contiene un patr√≥n (por ejemplo, si hay s√≠mbolos como $)

In [None]:
df["columna"].str.contains('patr√≥n') 

# Con m√°s par√°metros

df['columna'].str.contains('patr√≥n', case=True, na=None, regex=True)

# case = True : B√∫squeda sensible a may√∫sculas y min√∫sculas.
# na = None : Especifica el valor que se debe devolver en caso de que el valor de la celda sea NaN. Por defecto es None.
# regex=True : Activado. 

**4.M√©todos de agregaci√≥n (estad√≠sticas)**

``.max()`` ‚Üí Encuentra el valor m√°ximo en una columna o fila.

In [None]:
df['columna'].max()

In [None]:
# Ejemplo .max()

# Se crea un dataframe con la columna llamada 'valores' que contiene los siguientes n√∫meros
df = pd.DataFrame({'valores': [1, 5, 3, 7, 2]})

# Obtenemos el valor m√°ximo de la columna 'valores'
print(df['valores'].max())  # Imprime 7


``.min()`` ‚Üí Encuentra el valor m√≠nimo en una columna o serie.

In [None]:
df['columna'].min()

In [None]:
# Ejemplo .min()

# Se crea un dataframe con la columna llamada 'valores' que contiene los siguientes n√∫meros
df = pd.DataFrame({'valores': [1, 5, 3, 7, 2]})

# Obtenemos el valor m√≠nimo de la columna 'valores'
print(df['valores'].min())  # Imprime 1


**5. Guardado y reindexaci√≥n**

``reset_index()``‚Üí Se utiliza en pandas para restablecer los √≠ndices de un DataFrame. 

In [None]:
df.reset_index(drop=True, inplace=True)

# reset_index(): Restablece el √≠ndice del DataFrame, es decir, elimina el √≠ndice actual y lo reemplaza con un nuevo √≠ndice predeterminado (0, 1, 2, ...).
# drop = True : Indica que la columna del √≠ndice anterior no se agregar√° como una nueva columna en el DataFrame. Si estuviera en False, el √≠ndice antiguo se mantendr√≠a como una nueva columna.
# inplace = True : Modifica el DataFrame original en lugar de devolver una copia modificada.

- Guardar dataset filtrado en un nuevo DataFrame:

In [None]:
nuevo_df = df[condici√≥n_de_filtro]

In [None]:
# Ejemplo de guardado de dataset filtrado

# Creamos un DataFrame de ejemplo
data = {'Provincia': ['Nevada', 'California', 'Nevada', 'Utah', 'Nevada'],
        'Ventas': [500, 1000, 300, 800, 200]}
df = pd.DataFrame(data)

# Filtramos el DataFrame y guardamos el resultado en un nuevo DataFrame llamada df_nevada
df_nevada = df[df["Provincia"] == "Nevada"]  # df[df["Provincia"] == "Nevada"] crea un nuevo DataFrame con solo las filas que cumplen esa condici√≥n.

## Groupby() y Apply: Agrupaci√≥n de datos

``1. groupby():`` El m√©todo groupby() agrupa un DataFrame seg√∫n los valores de una o m√°s columnas, lo que permite aplicar funciones agregadas a cada grupo.

In [None]:
df_grouped = df.groupby('columna')

# Agrupando y realizando operaciones
df_grouped = df.groupby('columna').operacion()

# Agrupando por columna, realizando una operaci√≥n, y reiniciando sus √≠ndices
df_resultado = df.groupby("columna")["otra_col"].sum().reset_index()

In [None]:
# Ejemplo de groupby con operaciones()

# Agrupamos por la columna 'Provincia' y calculamos la suma de 'Ventas' para cada grupo
df_grouped = df.groupby('Provincia')['Ventas'].sum()

Por defecto, groupby() ignora los valores nulos (dropna=True). Si queremos incluirlos, usamos dropna=False:


In [None]:
df.groupby('columna', dropna=False).sum()

**Funciones estad√≠sticas en groupby()**

In [None]:

.count() Cuenta elementos en cada grupo. Ej: df.groupby('columna')['otra_col'].count()
.sum()	Suma los valores por grupo.  Ej: df.groupby('columna')['otra_col'].sum()
.mean()	Calcula el promedio.	Ej: df.groupby('columna')['otra_col'].mean()
.max()	Encuentra el valor m√°ximo. Ej: df.groupby('columna')['otra_col'].max()
.min()	Encuentra el valor m√≠nimo. Ej: df.groupby('columna')['otra_col'].min()
.std()	Calcula la desviaci√≥n est√°ndar. Ej: df.groupby('columna')['otra_col'].std()
.median() Calcula la mediana.	Ej: df.groupby('columna')['otra_col'].median()
.agg([]) Aplica varias funciones a la vez. Ej: df.groupby('columna')['otra_col'].agg(['sum', 'mean'])


``2. apply():`` Permite aplicar funciones personalizadas a columnas o filas de un DataFrame.


In [None]:
df.apply(func, axis=0)

# func: La funci√≥n que se va a aplicar a lo largo de un eje del DataFrame o Serie. Puede ser una funci√≥n predefinida de Python, una funci√≥n personalizada
# axis=0 o axis='index': Aplica la funci√≥n a lo largo de las columnas
# axis=1 o axis='columns': Aplica la funci√≥n a lo largo de las filas


In [None]:
# Ejemplo apply b√°sico()

# Creamos un DataFrame de ejemplo
data = {'Producto': ['A', 'B', 'C', 'D'],
        'Precio': [10.5, 20.75, 30.99, 40.25]}
df = pd.DataFrame(data)

# Aplicamos la funci√≥n round() a la columna 'Precio' para redondear los valores
df['Precio_Redondeado'] = df['Precio'].apply(round)


In [None]:
# Ejemplo apply() con una funci√≥n personalizada

def cuadrado(x): # funci√≥n personalizada que toma un valor x y devuelve su cuadrado (x**2).
    return x**2

df['nueva_col'] = df['columna'].apply(cuadrado)

# df['columna'] selecciona la columna del DataFrame.
# .apply(cuadrado) aplica la funci√≥n cuadrado() a cada valor de la columna.
# El resultado se guarda en una nueva columna llamada "nueva_col".


In [None]:
# Ejemplo de funci√≥n y apply: Aqu√≠ creamos un diccionario de key/valor correspondiente a continente y paises. 

# Vamos a utilizar el pa√≠s Belize como ejemplo. Lo definimos como variable  

pais = "Belize"

def obtener_continente (dato): # Creamos la funci√≥n para obtener el continente de cada pa√≠s
    continentes = {
    'Asia': ["Philippines", 'Afghanistan', 'Armenia', 'Azerbaijan', 'Bahrain', 'Bangladesh', 'Bhutan', 'Brunei', 'Cambodia', 'China', 'East Timor', 'India', 'Indonesia', 'Iran', 'Iraq', 'Israel', 'Japan', 'Jordan', 'Kazakhstan', 'Kuwait', 'Kyrgyzstan', 'Laos', 'Lebanon', 'Malaysia', 'Maldives', 'Mongolia', 'Myanmar', 'Nepal', 'North Korea', 'Oman', 'Pakistan', 'Palestinian National Authority', 'Qatar', 'Saudi Arabia', 'Singapore', 'South Korea', 'Sri Lanka', 'Syria', 'Tajikistan', 'Thailand', 'Turkmenistan', 'United Arab Emirates', 'Uzbekistan', 'Vietnam', 'Yemen'],
    'Africa': ["Tunisia", "Ivory Coast", 'Algeria', 'Angola', 'Benin', 'Botswana', 'Burkina Faso', 'Burundi', 'Cape Verde', 'Cameroon', 'Central African Republic', 'Chad', 'Comoros', 'Republic of the Congo', 'Cote d\'Ivoire', 'Democratic Republic of the Congo', 'Djibouti', 'Egypt', 'Equatorial Guinea', 'Eritrea', 'Eswatini', 'Ethiopia', 'Gabon', 'The Gambia', 'Ghana', 'Guinea', 'Guinea-Bissau', 'Kenya', 'Lesotho', 'Liberia', 'Libya', 'Madagascar', 'Malawi', 'Mali', 'Mauritania', 'Mauritius', 'Morocco', 'Mozambique', 'Namibia', 'Niger', 'Nigeria', 'Rwanda', 'Sao Tome and Principe', 'Senegal', 'Seychelles', 'Sierra Leone', 'Somalia', 'South Africa', 'South Sudan', 'Sudan', 'Tanzania', 'Togo', 'Uganda', 'Zambia', 'Zimbabwe'],
    'Europe': ["Turkey", "Republic of Ireland", "Vatican City", 'Albania', 'Andorra', 'Austria', 'Belarus', 'Belgium', 'Bosnia and Herzegovina', 'Bulgaria', 'Croatia', 'Cyprus', 'Czech Republic', 'Denmark', 'Estonia', 'Finland', 'France', 'Georgia', 'Germany', 'Greece', 'Hungary', 'Iceland', 'Ireland', 'Italy', 'Latvia', 'Liechtenstein', 'Lithuania', 'Luxembourg', 'Malta', 'Moldova', 'Monaco', 'Montenegro', 'Netherlands', 'North Macedonia', 'Norway', 'Poland', 'Portugal', 'Romania', 'Russia', 'San Marino', 'Serbia', 'Slovakia', 'Slovenia', 'Spain', 'Sweden', 'Switzerland', 'Ukraine', 'United Kingdom'],
    "Central America":["Belize", "Saint Vincent and the Grenadines", "Saint Lucia", "Saint Kitts and Nevis", "Panama", "Nicaragua", "Mexico", "Jamaica", "Honduras", "Haiti", "Guatemala", "Grenada", "El Salvador", "Dominican Republic", "Dominica", "Cuba", "Antigua and Barbuda", "The Bahamas", "Barbados"," Belize", "Costa Rica",  ],
    'North America': ['Canada', 'United States'],
    'South America': ["Trinidad and Tobago", 'Argentina', 'Bolivia', 'Brazil', 'Chile', 'Colombia', 'Ecuador', 'Guyana', 'Paraguay', 'Peru', 'Suriname', 'Uruguay', 'Venezuela'],
    'Oceania': ["Papua New Guinea", "Federated States of Micronesia", 'Australia', 'Fiji', 'Kiribati', 'Marshall Islands', 'Nauru', 'New Zealand', 'Palau', 'Samoa', 'Solomon Islands', 'Tonga', 'Tuvalu', 'Vanuatu']
}
    # creamos dentro de la funci√≥n un diccionario donde la key ser√° el continente y el valor ser√° una lista de pa√≠ses que son de ese continente

    # Hacemos un bucle que itere por ese diccionario y nos devuelva su key correspondiente (k=key,v=valor)
    for k,v in continentes.items():
        if dato in v:
            return k

In [None]:
# Aplicamos la funci√≥n a uno de los pa√≠ses

obtener_continente(pais)

In [None]:
# Para que se aplique a todas las filas de la columna seleccionada (en este caso,country), usamos apply() 

df["continent"] = df["country"].apply(obtener_continente)

# Nuevo DataFrame que contiene estas dos columnas para visualizar el resultado
df[["country", "continent"]].head()

``3.lambda:`` Aplica funciones personalizadas (a todo el dataframe,varios par√°metros, varias columnas,datos...) 
- Es una funci√≥n an√≥nima (sin nombre) que se utiliza principalmente para crear funciones simples de una sola l√≠nea, y se define usando la palabra clave lambda en lugar de def.
- Las lambdas son √∫tiles cuando se necesita una funci√≥n r√°pida y simple para pasarla como argumento en funciones como map() o filter().
- Es una manera de aplicar una funci√≥n a todo el DataFrame y no s√≥lo a una columna (que ser√≠a con el apply)

In [None]:
# Sintaxis lambda 

lambda argumentos: expresi√≥n

# Ejemplo: Funci√≥n lambda para sumar dos n√∫meros

sumar = lambda x, y: x + y  
# Esta funci√≥n toma dos argumentos: 'x', 'y'. 
# x + y: Es la expresi√≥n que la funci√≥n lambda va a ejecutar.

print(sumar(3, 5))  # Resultado: 8



## Imputaci√≥n de nulos (imputaci√≥n = reemplazar)

**M√©todos Comunes de Imputaci√≥n**
- Imputaci√≥n Simple usando la media, mediana o moda.

- Imputaci√≥n Iterativa utilizando modelos predictivos.

- KNN Imputation utilizando los k vecinos m√°s cercanos.

 **Para variables categ√≥ricas**

1. `fillna()` (Imputaci√≥n basada en la moda) Podemos reemplazar los valores nulos con la moda (valor m√°s frecuente) de la variable.
2. Imputaci√≥n como una categor√≠a especial: En algunos casos, podr√≠amos querer mantener los valores nulos como una categor√≠a especial si representan una condici√≥n espec√≠fica en tus datos.

**Para variables num√©ricas**

1. ``fillna() o SimpleImputer`` (Imputaci√≥n basada en estad√≠sticos) Podemos utilizar la media, la mediana o la moda de la variable para reemplazar los valores nulos.
2. `IterativeImputer o KNNImputer` (Imputaci√≥n basada en modelos) Podemos utilizar modelos de regresi√≥n u otros modelos de aprendizaje autom√°tico para predecir los valores nulos bas√°ndote en las otras variables. 

- ``SimpleImputer``: Imputador que permite rellenar los valores faltantes en un conjunto de datos de acuerdo con una estrategia sencilla, como la media, mediana o la moda de las columnas.

La sintaxis para usar SimpleImputer es:

In [None]:
from sklearn.impute import SimpleImputer

imputer = SimpleImputer(strategy='mean')  # Puedes usar 'mean', 'median', 'most_frequent', etc.

# Ajustar y transformar los datos
data_imputed = imputer.fit_transform(datos)

- ``IterativeImputer`` : t√©cnica que utiliza un modelo de regresi√≥n para estimar los valores faltantes en nuestros datos.

La sintaxis para usar IterativeImputer es:

In [None]:
# Crear una instancia del IterativeImputer
imputer = IterativeImputer(max_iter, random_state)

# Ajustar y transformar los datos
data_imputed = imputer.fit_transform(datos)

# Donde:

# IterativeImputer: Es un tipo de imputador de valores faltantes Lo que hace es llenar los valores faltantes en varias iteraciones, 
# ajustando cada variable en funci√≥n de las dem√°s variables, y repite el proceso para mejorar el resultado.

# max_iter: Este par√°metro indica el n√∫mero m√°ximo de iteraciones (pasos de ajuste) que se har√°n para mejorar la estimaci√≥n de los valores faltantes. 
# Si, por ejemplo, max_iter=10, el algoritmo har√° hasta 10 intentos para llenar los valores faltantes de manera m√°s precisa.

# random_state: Este par√°metro asegura que los resultados sean reproducibles. Al poner un valor espec√≠fico (por ejemplo, random_state=42) 
# obtendr√°s siempre el mismo resultado al ejecutar el c√≥digo, lo cual es √∫til para mantener consistencia entre ejecuciones.

# fit_transform(datos): Esto hace dos cosas:
# fit: Ajusta el modelo a los datos, es decir, aprende las relaciones entre las variables para poder predecir los valores faltantes.
# transform: Despu√©s de aprender, usa esa informaci√≥n para rellenar los valores faltantes en los datos.

- ``KNNImputer``: t√©cnica que se basa en el algoritmo de vecinos m√°s cercanos (KNN) para llenar los valores faltantes en nuestros datos

La sintaxis para usar KNNImputer es:

In [None]:
# Crear una instancia del KNNImputer
imputer = KNNImputer(n_neighbors=n_vecinos)

# Ajustar y transformar los datos
data_imputed = imputer.fit_transform(datos)

# Donde:

# KNNImputer es una herramienta de la librer√≠a sklearn que sirve para rellenar valores faltantes (como los NaN) en los datos.

# n_neighbors=n_vecinos: Esto le dice al imputer cu√°ntos vecinos cercanos debe mirar para estimar el valor faltante. 
# Por ejemplo, si n_vecinos=3, mirar√° los 3 vecinos m√°s cercanos para hacer una predicci√≥n.

# fit_transform(datos):
# fit: Aprende las relaciones y patrones entre las caracter√≠sticas (columnas) del conjunto de datos datos.
# transform: Aplica esas relaciones aprendidas para rellenar los valores faltantes en los datos.

**Otros m√©todos de Gesti√≥n de Valores Nulos**

``drop():``Elimina filas o columnas completas que contienen valores nulos.



``dropna():`` Similar a drop(), pero m√°s flexible, permite especificar qu√© filas o columnas eliminar bas√°ndose en ciertas condiciones, como eliminar solo aquellas que tienen un porcentaje de valores nulos.

In [None]:
df.dropna()

# Ejemplo con axis= 1: Indica que quieres eliminar columnas en lugar de filas. axis= 0 indicar√≠a lo contrario

df_dropped_columns = df.dropna(axis=1)

**Visualizaci√≥n con Seaborn y Matplotlib para validar la imputaci√≥n**


La validaci√≥n de la imputaci√≥n es fundamental para asegurarse de que la imputaci√≥n no distorsione la distribuci√≥n de los datos. Seaborn y Matplotlib se pueden usar para crear gr√°ficos como histogramas, diagramas de caja y dispersi√≥n para comparar los datos antes y despu√©s de la imputaci√≥n, verificando si los valores imputados siguen una distribuci√≥n coherente con el resto de los datos.

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
# Para que te subraye los nulos podemos instalar lo siguiente:

pip install Jinja2

## 7. Visualizaci√≥n I: An√°lisis variables num√©ricas

Para visualizar datos necesitaremos las librer√≠as 'matplotlib.pyplot' o 'seaborn':

In [None]:
# Visualizaci√≥n de datos: podemos usar 'matplotlib.pyplot' o 'seaborn'

import matplotlib.pyplot as plt
import seaborn as sns

``Matplotlib``
üìå Es la base de la visualizaci√≥n en Python

- Biblioteca m√°s b√°sica y flexible para gr√°ficos en Python.

- Proporciona control total sobre cada aspecto de la gr√°fica.

- √ötil para gr√°ficos simples como l√≠neas, barras, histogramas, etc.

- Su estilo predeterminado es m√°s primitivo en comparaci√≥n con Seaborn.

- M√°s c√≥digo necesario para hacer gr√°ficos atractivos.

``Seaborn``
üìå Basado en Matplotlib, pero m√°s estilizado y orientado a datos estad√≠sticos

- Dise√±ado para trabajar con DataFrames de pandas f√°cilmente.

- Proporciona gr√°ficos estad√≠sticos avanzados como boxplots, heatmaps, violin plots, etc.

- Colores y estilos mejorados por defecto (menos necesidad de personalizaci√≥n).

- Automatiza muchas configuraciones, lo que simplifica el c√≥digo.

- Se integra bien con an√°lisis de datos y machine learning.

Tipos de an√°lisis y gr√°ficos asociados:

- Univariado: Se analiza una sola variable. Gr√°ficos: Histograma, Boxplot, Violinplot.

- Bivariado: Se analizan dos variables num√©ricas. Gr√°ficos: Scatterplot, Regplot.

- Multivariado: Se analizan m√∫ltiples variables. Gr√°ficos: Pairplot, Heatmap.

``Paso a paso para visualizar datos``:

**1. Importaci√≥n de las librer√≠as necesarias y apertura del archivo**

In [None]:
# importamos las librer√≠as que necesitamos

# Tratamiento de datos

import pandas as pd

# Visualizaci√≥n

import matplotlib.pyplot as plt
import seaborn as sns

# Configuraci√≥n

pd.set_option('display.max_columns', None) # para poder visualizar todas las columnas de los DataFrames

# Cargamos el archivo

df = pd.read_csv("nombre_archivo.csv") 
df.head()

**2. Establecer tama√±o de la gr√°fica, n¬∫ filas y columnas**

Sintaxis:

In [None]:
fig, axes = plt.subplots(nrows = 1, ncols = 2, figsize = (20, 5))

# nrows=1: Esto significa que la figura tendr√° 1 fila de subgr√°ficos (ejes).
# ncols=2: Esto significa que habr√° 2 columnas de subgr√°ficos (ejes).
# figsize; Es un par√°metro que define el tama√±o de la figura en pulgadas.

Despu√©s de esto comenzaremos con la sintaxis de la creaci√≥n de la gr√°fica (ver tipos de gr√°ficas)

**3.Creaci√≥n de la gr√°fica con el m√©todo elegido (seaborn o matplotlib)** 
- Ver el apartado 'tipos de gr√°ficas' m√°s abajo para ver la sintaxis

Ejemplo de creaci√≥n de gr√°fica:

In [None]:
# Ejemplo completo de creaci√≥n gr√°fico Boxplot

plt.figure(figsize=(6, 4)) # Para definir el tama√±o de la figura antes de dibujar un gr√°fico. 
sns.boxplot(x=df["birth_rate"]) # sintaxis de creaci√≥n del gr√°fico
plt.title("Boxplot de la Tasa de Natalidad") # Ponemos t√≠tulo a la gr√°fica
plt.show() # Muestra la gr√°fica generada en pantalla. 

# Tipos de gr√°ficas

``1. Histograma / histplot`` = Muestra la distribuci√≥n de una variable (gr√°fico de barras)

Sintaxis m√©todo Seaborn:



In [None]:
sns.histplot(data=df, x="variable", bins=10, kde=False, color="blue")

# bins = quita "profundidad" a la gr√°fica, se hace mas gen√©rica
# kde = "densidad" de los datos

Sintaxis m√©todo Matplotlib:

In [None]:
plt.hist(x, bins=None, range=None, density=False, cumulative=False, color=None, edgecolor=None)

``2. Diagrama de caja / Boxplot`` = Visualiza la distribuci√≥n y valores at√≠picos (gr√°fico de caja y bigotes)

Sintaxis m√©todo Seaborn:

In [None]:
sns.boxplot(x="categoria", y="valor", data=df)

# Sintaxis con m√°s par√°metros
sns.boxplot(x, y, data, hue, width, palette, color)

Sintaxis m√©todo Matplotlib:

In [None]:
plt.boxplot(datos)

``3. Violinplot`` = Combina Boxplot y hisplot. Es una forma de visualizar la distribuci√≥n de datos num√©ricos en diferentes categor√≠as o grupos. (gr√°fico de ondas)

Sintaxis m√©todo Seaborn:

In [None]:
sns.violinplot(x="categoria", y="valor", data=df)

# Sintaxis con m√°s par√°metros
sns.violinplot(x, y, data, color, palette, linewidth)

#linewidth: Grosor del borde de los violines.

``4. Gr√°fico de dispersi√≥n / scatterplot`` = Relaci√≥n entre dos variables. Usaremos este tipo de gr√°ficas para identificar patrones, tendencias o correlaciones entre las dos variables (gr√°fico de puntos)

Sintaxis m√©todo Seaborn:

In [None]:
sns.scatterplot(x = "nombre_x", y = "nombre_y", data, hue, style, size)

# hue = comparar grupos a√±adiendo otra variable (categ√≥rica), se a√±adir√° una leyenda que nos permitir√° ver patrones

Sintaxis m√©todo Matplotlib:

In [None]:
plt.scatter()

``5. Gr√°fico de regresi√≥n / regplot`` = Incluye una l√≠nea de tendencia. (similar a scatterplot)
- Usaremos este tipo de gr√°ficas cuando queramos explorar la relaci√≥n entre dos variables num√©ricas y al mismo tiempo, ver c√≥mo se ajusta una l√≠nea de regresi√≥n lineal a esos datos. 
- Es √∫til para identificar la direcci√≥n y la fuerza de la relaci√≥n entre las variables, y para evaluar si existe una correlaci√≥n lineal entre ellas.

Sintaxis m√©todo Seaborn:

In [None]:
sns.regplot(x, y, data, markers)

``6. Pairplot`` = Muestra relaciones m√∫ltiples.

Sintaxis m√©todo Seaborn:

In [None]:
sns.pairplot(data)

``7. Heatmap`` = Visualiza relaciones num√©ricas con colores.

Sintaxis m√©todo Seaborn:

In [None]:
sns.heatmap(data)

Sintaxis m√©todo Matplotlib:

In [None]:
plt.imshow(x)

# Otros m√©todos √∫tiles de creaci√≥n de tablas para Matplotlib

 `plt.subplots()`
- Se utiliza para crear una figura y una o varias gr√°ficas (subplots). 
- Es √∫til cuando se desea crear m√∫ltiples gr√°ficos en una misma figura.

Sintaxis:

In [None]:
fig, axes = plt.subplots(nrows, ncols)

# fig: Representa toda la figura donde se colocar√°n los subgr√°ficos.
# axes: Es un array con los subgr√°ficos organizados seg√∫n nrows y ncols.
# nrows: N√∫mero de filas de subgr√°ficos.
# ncols: N√∫mero de columnas de subgr√°ficos.



`plt.title()` = Cambiar de t√≠tulo la gr√°fica.

Sintaxis:

In [None]:
plt.title('Texto del t√≠tulo') # `Texto del t√≠tulo` es el texto que deseas mostrar como t√≠tulo en el gr√°fico

``plt.show()`` = Muestra las gr√°ficas generadas en pantalla.

In [None]:
plt.show()

# M√©todos para modificar las gr√°ficas

- **A√±adir titulo**

In [None]:
# M√©todo sin subplot
plt.title('nombre_titulo')

# M√©todo con subplot
axes[n].set_title('nombre_titulo') # axes[n] es un subgr√°fico individual dentro de plt.subplots()

- **Cambiar nombre del eje x o y**

Se utiliza para agregar una etiqueta al eje x del gr√°fico. Permite especificar el texto que se mostrar√° como etiqueta en el eje x

In [None]:
# M√©todo sin subplot
plt.xlabel('Etiqueta del eje x')  # siendo 'Etiqueta del eje x' el texto que deseas mostrar como etiqueta del eje x.

plt.ylabel('Etiqueta del eje y') # siendo 'Etiqueta del eje y' el texto que deseas mostrar como etiqueta del eje y.

# M√©todo con subplot
axes[n].set_xlabel()

axes[n].set_ylabel()

- **Quitar linea de la derecha**

In [None]:
# M√©todo sin subplot
plt.gca().spines['right'].set_visible(False) # se puede modificar 'right' por 'top' seg√∫n proceda

# M√©todo con subplot
axes[n].spines['right'].set_visible(False)

- **Limitar el eje x o y** 

Permite controlar qu√© rango de valores se mostrar√° en los ejes, lo que puede ser √∫til para enfocarnos en una regi√≥n espec√≠fica de los datos o para mejorar la comparaci√≥n entre diferentes gr√°ficos.

In [None]:
# M√©todo sin subplot

# En caso de que estemos trabajando con gr√°ficas individuales
plt.xlim([valor_min, valor_max])  # valor_min: Valor m√≠nimo del l√≠mite del eje.

plt.ylim([valor_min, valor_max]) # valor_max: Valor m√°ximo del l√≠mite del eje.


# M√©todo con subplot
axes[n].set_xlim()

axes[n].set_ylim()

- **Cambiar las propiedades de las etiquetas del eje x o y**

In [None]:
# M√©todo sin subplot

plt.xticks()

plt.yticks()

# M√©todo con subplot
axes[n].set_xticks()

axes[n].set_yticks()

## 8. Visualizaci√≥n II: An√°lisis variables categ√≥ricas y relaci√≥n con num√©ricas

Tipos de An√°lisis y sus Gr√°ficos Asociados

- Univariado ‚Üí Countplot, Pie Chart ‚Üí Muestra la frecuencia de cada categor√≠a.

- Bivariado ‚Üí Barplot (con hue) ‚Üí Compara dos variables categ√≥ricas.

- Comparaci√≥n ‚Üí Stacked Bar Chart ‚Üí Muestra relaciones y proporciones entre categor√≠as.

``1. Countplot`` : Muestra cu√°ntas veces aparece cada categor√≠a en una columna de datos. Es √∫til para comparar frecuencias de manera r√°pida.

¬øCu√°ndo usar un countplot? üèÜ

‚úÖ Casos ideales:
- Analizar cu√°ntas veces aparece cada categor√≠a en una columna.
- Comparar la cantidad de elementos en diferentes grupos.
- Explorar la distribuci√≥n de una variable categ√≥rica antes de otros an√°lisis.

‚ùå No es ideal si:

- Quieres analizar relaciones entre variables num√©ricas.
- Hay demasiadas categor√≠as (el gr√°fico se vuelve dif√≠cil de leer).

Sintaxis Seaborn:

In [None]:
sns.countplot(x="columna_categorica", data=mi_dataframe)

# Sintaxis con m√°s par√°metros
sns.countplot(x, data, palette, color, hue, orient)

# x: Nombre de la columna con las categor√≠as.
# data: DataFrame con los datos.
# palette (opcional): Paleta de colores.
# color (opcional): Color de las barras.
# hue (opcional): Diferencia las barras con otra variable categ√≥rica.
# order / hue_order (opcional): Orden de las categor√≠as en el eje X.
# orient (opcional): Cambia la orientaci√≥n de las barras.


``2. Pieplot o Gr√°fico de quesitos``üçï: Muestra la proporci√≥n de cada categor√≠a en relaci√≥n con el total. Cada sector representa una categor√≠a y su tama√±o depende de su cantidad. (gr√°fico circular)

¬øCu√°ndo usarlo?
- ‚úÖ Para ver c√≥mo se divide un conjunto en partes.
- ‚ùå No es √∫til para comparar dos variables categ√≥ricas.
- ‚ùå No es ideal si hay muchas categor√≠as.

Sintaxis en Matplotlib:

In [None]:
plt.pie(valores, labels)

#Sintaxis con m√°s par√°metros
plt.pie(valores, labels, autopct, startangle, data, colors)

# labels: Nombres de las categor√≠as.
# valores: Cantidad de cada categor√≠a.
# autopct: Muestra porcentajes.
# startangle: Ajusta el √°ngulo de inicio.
# colors: Personaliza los colores.
# textprops: Cambia el estilo del texto.

In [None]:
# Ejemplo de pieplot

import matplotlib.pyplot as plt

# Datos
valores = [40, 30, 20, 10]  # Cantidad de cada categor√≠a
labels = ["Manzanas", "Pl√°tanos", "Naranjas", "Uvas"]  # Nombres de las categor√≠as

# Crear el gr√°fico
plt.pie(valores, labels=labels) # valores ‚Üí Lista de n√∫meros que representan la cantidad o proporci√≥n de cada categor√≠a. labels ‚Üí Lista de nombres de las categor√≠as.

# Mostrar el gr√°fico
plt.show()


``3. Barplot (Gr√°fico de Barras)``üìä: Representa datos categ√≥ricos con barras rectangulares. La altura de cada barra muestra la frecuencia o el valor de una categor√≠a. 

¬øPara qu√© sirve?
- ‚úÖCompara valores entre categor√≠as.
- ‚úÖ Visualiza distribuciones y tendencias.

Sintaxis en Seaborn:

In [None]:
sns.barplot(x, y)

# x ‚Üí Categor√≠as en el eje X.
# y ‚Üí Valores en el eje Y.

# Sintaxis con m√°s par√°metros
sns.barplot(x, y, palette, ci, hue)


Sintaxis en Matplotlib:

In [None]:
plt.bar(categorias, height, color)

# categorias ‚Üí Nombres en el eje X.
# height ‚Üí Valores num√©ricos en el eje Y.
# color (opcional) ‚Üí Cambia el color de las barras.


- **Relaci√≥n entre Variables Num√©ricas y Categ√≥ricas**

Se utilizan gr√°ficos que muestran c√≥mo cambia una variable num√©rica seg√∫n una variable categ√≥rica. Los gr√°ficos que podemos utilizar son:

``1. Barplot``: Muestra la relaci√≥n entre una variable categ√≥rica y una num√©rica mediante barras.

In [None]:
# Seaborn
sns.barplot(x, y)

# Matplotlib
plt.bar(categorias, height, color)

``2. Violinplot`` : Muestra la distribuci√≥n de una variable num√©rica para cada categor√≠a en una variable categ√≥rica.

In [None]:
#Seaborn
sns.violinplot(x, y, data, color, palette, linewidth)

# Matplotlib
plt.violinplot()

``3. Boxplot``: 	Muestra la distribuci√≥n de una variable num√©rica mediante cuartiles para cada categor√≠a.

In [None]:
# Seaborn
sns.boxplot(x="categoria", y="valor", data=df)

# Matplotlib
plt.boxplot(datos)

``4. Pointplot``: Muestra la relaci√≥n entre una variable categ√≥rica y una num√©rica mediante puntos y l√≠neas. 
- Se usa para visualizar la media de una variable num√©rica en funci√≥n de una variable categ√≥rica.

In [None]:
# Seaborn
sns.pointplot(x="categoria", y="valor", data=df)

# x: Variable categ√≥rica en el eje X.
# y: Variable num√©rica en el eje Y.
# data: DataFrame con los datos.