# **Análisis de Datos con ```pandas``` y DataFrames**

## **Introducción**

En este notebook, aprenderemos sobre el manejo de dataframes utilizando la biblioteca **pandas** en Python. Los DataFrames son una estructura de datos fundamental en la analítica de datos y el análisis exploratorio. A lo largo de este material, cubriremos desde la creación de DataFrames hasta su manipulación y las uniones entre diferentes DataFrames, utilizando el conocido dataset del Titanic.

### Contenido Detallado

1. **Introducción a DataFrames y pandas**
   - Instalación y configuración de pandas
   - Creación de DataFrames desde listas, diccionarios, archivos CSV y archivos Excel
   - Métodos para cargar archivos de diferentes formatos

2. **Selección y Filtrado de Datos**
   - Selección con `loc` e `iloc`
   - Filtrado de datos usando condiciones booleanas

3. **Manipulación de DataFrames**
   - Agregar y eliminar columnas/filas
   - Renombrar columnas

4. **Transformaciones y Agrupaciones**
   - Aplicar funciones (`apply`, `map`)
   - Agrupación de datos (`groupby`)

5. **Uniones de DataFrames**
   - Tipos de uniones (inner, outer, left, right)

6. **Ejercicios y Tareas**
   - Ejercicios prácticos para cada sección

## 1. **Introducción a DataFrames y pandas**

## ¿Qué es pandas?

**pandas** es una biblioteca de Python especializada en la manipulación y análisis de datos. Ofrece estructuras de datos y operaciones para manipular tablas numéricas y series temporales de manera eficiente y fácil de usar. La estructura de datos principal de pandas es el **DataFrame**, que se puede considerar como una tabla en una base de datos o una hoja de cálculo en Excel.

### DataFrames

Un **DataFrame** es una estructura de datos bidimensional, similar a una tabla, donde cada columna puede ser de un tipo de dato diferente (numérico, texto, booleano, etc.). Los DataFrames son flexibles y eficientes, lo que los hace ideales para una amplia variedad de tareas de análisis de datos.

#### Importancia en la Analítica de Datos

- **Manipulación de Datos:** Los DataFrames permiten realizar operaciones complejas de manipulación de datos de manera sencilla y rápida.
- **Análisis Exploratorio:** Facilitan el análisis exploratorio de datos, permitiendo filtrar, agrupar y resumir datos con facilidad.
- **Integración:** pandas se integra bien con otras bibliotecas de Python, como NumPy para operaciones numéricas y Matplotlib para visualizaciones.
- **Limpieza de Datos:** Proporciona herramientas para manejar valores nulos, duplicados y otros problemas comunes en los datasets.

Comenzaremos instalando la librería de ```pandas```

In [None]:
# Instalación de pandas
!pip install pandas

In [None]:
# Importación de la biblioteca
import pandas as pd

In [None]:
# Creación de DataFrames desde listas
# Creamos una lista de listas donde cada lista interna representa una fila del DataFrame
data = [
    ['Alice', 25], 
    ['Bob', 30],
    ['Charlie', 35]
]
df_list = pd.DataFrame(data, columns=['Name', 'Age'])
print("DataFrame creado desde listas:\n", df_list)

In [None]:
# Creación de DataFrames desde diccionarios
# Creamos un diccionario donde las claves son los nombres de las columnas y los valores son listas con los datos
data = {
    'Name': ['Alice', 'Bob', 'Charlie'], 
    'Age': [25, 30, 35]
    }
df_dict = pd.DataFrame(data)
print("\nDataFrame creado desde diccionarios:\n", df_dict)

In [None]:
# Creación de DataFrames desde un archivo CSV
# Utilizamos el método read_csv para cargar los datos desde un archivo CSV
df_csv = pd.read_csv('Titanic.csv')
print("\nDataFrame creado desde un archivo CSV:\n", df_csv.head())

### Métodos para cargar dataframes a partir de diferentes tipos de archivos

- pd.read_csv('archivo.csv'): Carga datos desde un archivo CSV.
- pd.read_excel('archivo.xlsx'): Carga datos desde un archivo Excel.
- pd.read_json('archivo.json'): Carga datos desde un archivo JSON.
- pd.read_html('archivo.html'): Carga datos desde tablas en un archivo HTML.
- pd.read_sql('consulta_sql', conexion): Carga datos desde una base de datos utilizando una consulta SQL.

## 2. **Selección y Filtrado de Datos**

En esta sección, aprenderemos cómo seleccionar columnas y filas específicas de un DataFrame, así como filtrar datos basados en una o más condiciones. Estas operaciones son fundamentales para explorar y manipular conjuntos de datos de manera eficiente.

### Selección de Columnas

Podemos seleccionar una o varias columnas de un DataFrame utilizando el nombre de las columnas.

In [None]:
# Creación de un DataFrame de ejemplo
data = {'Name': ['Alice', 'Bob', 'Charlie'], 'Age': [25, 30, 35], 'Gender': ['F', 'M', 'M']}
df = pd.DataFrame(data)
print(df)

In [None]:
# Selección de una sola columna
df['Name']

In [None]:
# Selección de múltiples columnas
df[['Name', 'Age']]

### Selección de Filas

Podemos seleccionar filas específicas utilizando los métodos loc e iloc.

- `loc` selecciona filas y columnas por etiquetas.
- `iloc` selecciona filas y columnas por posiciones enteras.

In [None]:
# Selección de una fila usando loc (por etiqueta)
df.loc[0]

In [None]:
# Selección de una fila usando iloc (por posición)
df.iloc[0]

In [None]:
# Selección de múltiples filas y columnas usando loc. Los parámetros de loc son indices de filas y luego columnas.
df.loc[0:1, ['Name', 'Age']]

In [None]:
# Selección de múltiples filas y columnas usando iloc
df.iloc[0:2, 0:2]

### Filtrado de Datos con Condiciones

Podemos filtrar datos en un DataFrame utilizando condiciones booleanas.

**Filtrado con una Condición**

In [None]:
# Filtrar filas donde la edad es mayor de 30
filtered_df = df[df['Age'] > 30]
print(filtered_df)

In [None]:
# Filtrar filas donde la edad es mayor de 25 y el género es masculino
filtered_df = df[(df['Age'] > 25) & (df['Gender'] == 'M')]
print(filtered_df)

## 3. Manipulación de DataFrames

En esta sección, aprenderemos cómo manipular DataFrames creando nuevas columnas, renombrando y eliminando columnas. Utilizaremos el DataFrame de ejemplo creado anteriormente.

### **Crear Nuevas Columnas**

Podemos crear nuevas columnas en un DataFrame asignando valores directamente o utilizando funciones como `apply` y `map`.

#### **Asignar Valores Directamente**

In [None]:
# Crear una nueva columna asignando valores directamente
df['Age_in_5_years'] = df['Age'] + 5
print(df)

### **Usar Funciones Apply y Map**
Podemos utilizar apply para aplicar una función a cada elemento de una columna o a cada fila de un DataFrame, y map para transformar los valores de una columna utilizando una función o un diccionario.

In [None]:
# Crear una nueva columna usando apply
df['Name_Length'] = df['Name'].apply(len)
print(df)

In [None]:
# Crear una nueva columna usando map con una función
df['Is_Adult'] = df['Age'].map(lambda x: x >= 18)
print(df)

### **Renombrar Columnas**

Podemos renombrar columnas utilizando el método rename.

In [None]:
# Renombrar columnas
df = df.rename(columns={'Name': 'Full_Name', 'Age': 'Current_Age'})
print(df)

### **Eliminar Columnas**

Podemos eliminar columnas utilizando el método drop.

In [None]:
# Eliminar columnas
df = df.drop(columns=['Gender'])
print(df)

El método drop tiene un argumento llamado inplace. Este argumento lo que hace es la transformación de eliminar la columna y sobreescribe el dataframe.

In [None]:
# Eliminar columnas
df.drop(columns=['Age_in_5_years'], inplace=True)
print(df)

## 4. Transformaciones y Agrupaciones

En esta sección, aprenderemos cómo transformar datos en un DataFrame utilizando funciones y cómo agrupar datos para realizar análisis más complejos. Utilizaremos ejemplos que muestran cómo definir funciones y aplicarlas al DataFrame, así como varios ejemplos de agrupaciones.

### **Aplicar Funciones para Transformar Datos**

Podemos definir funciones personalizadas y aplicarlas a un DataFrame para crear nuevas columnas o transformar datos existentes.

#### **Definir Funciones con uno o varios parámetros**

In [None]:
data = {
    'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Eva', 'Frank', 'Grace', 'Helen', 'Ian', 'Jane'],
    'Age': [25, 30, 35, 22, 28, 40, 27, 45, 32, 38],
    'Gender': ['F', 'M', 'M', 'M', 'F', 'M', 'F', 'F', 'M', 'F']
}
df = pd.DataFrame(data)

In [None]:
# Definir una función con un parámetro
def age_category(age):
    if age < 30:
        return 'Young'
    else:
        return 'Adult'

# Aplicar la función al DataFrame para crear una nueva columna
df['Age_Category'] = df['Age'].apply(age_category)
print(df)

In [None]:
# Definir una función con múltiples parámetros para segmentar personas por edad y género
def segment_person(row):
    if row['Gender'] == 'M':
        if row['Age'] < 30:
            return 'Hombre Joven'
        else:
            return 'Hombre Adulto'
    elif row['Gender'] == 'F':
        if row['Age'] < 30:
            return 'Mujer Joven'
        else:
            return 'Mujer Adulta'

# Aplicar la función al DataFrame para crear una nueva columna de segmentos
df['Segment'] = df.apply(segment_person, axis=1)
print(df)

### **Agrupaciones**
Las agrupaciones permiten agrupar datos basados en una o más columnas y realizar operaciones agregadas, como calcular la media, la suma, etc.

In [None]:
# Agrupar por una columna y calcular la media
grouped_by_gender = df.groupby('Gender')['Age'].mean()
print(grouped_by_gender)

In [None]:
# Agrupar por múltiples columnas y calcular el tamaño de cada grupo
grouped_by_segment = df.groupby(['Gender']).size()
print(grouped_by_segment)

In [None]:
print(df[['Segment', 'Age']].sort_values(by='Segment'))

In [None]:
grouped_by_segment = df.groupby(['Segment']).agg({'Age': ['min', 'max', 'mean']})
print(grouped_by_segment)

## 5. **Uniones de DataFrames**

El join de DataFrames en Python usando pandas es similar a las operaciones de join en bases de datos SQL. Permite combinar dos DataFrames basándose en valores comunes de una o más columnas (llaves), o bien combinarlos por sus índices. Además de los joins, el método append permite añadir filas de un DataFrame a otro. A continuación, explicaré los diferentes tipos de joins y cómo utilizar append.

### Tipos de Joins

- **Inner Join:** Combina dos DataFrames basándose en las llaves de unión y retorna solo las filas que tienen valores coincidentes en ambos DataFrames.
- **Left Join:** Retorna todas las filas del DataFrame izquierdo y las filas coincidentes del DataFrame derecho. Si no hay coincidencia, las columnas del DataFrame derecho tendrán valores NaN.
- **Right Join:** Retorna todas las filas del DataFrame derecho y las filas coincidentes del DataFrame izquierdo. Si no hay coincidencia, las columnas del DataFrame izquierdo tendrán valores NaN.
- **Full Join:** Combina todos los registros de ambos DataFrames donde las llaves de unión coinciden, y para las filas que no tienen una coincidencia en el otro DataFrame, los valores correspondientes serán NaN.
- **Cross Join:** Crea el producto cartesiano de dos DataFrames. Cada fila del primer DataFrame se combina con todas las filas del segundo DataFrame.

En Pandas los Join se hacen con la función ```Merge```.

La función ``merge`` en pandas es extremadamente útil para combinar DataFrames de manera eficiente y flexible, muy parecido a las operaciones de join en bases de datos SQL. A continuación, te explico los parámetros más importantes de la función merge de pandas:

Parámetros Clave de pd.merge():

- **left**: El primer DataFrame que deseas unir.
- **right**: El segundo DataFrame que deseas unir.
- **how**: Define el tipo de merge a realizar. Puede ser 'left', 'right', 'outer', 'inner', 'cross'. Default es 'inner'.
- **on**: Una etiqueta o lista de etiquetas para unir las tablas. Debe encontrarse en ambos DataFrames. Si no se especifica y tampoco se usan los parámetros left_on y right_on, pandas intentará unir las tablas basadas en columnas de nombres comunes.
- **left_on**: Columnas o índices del DataFrame izquierdo para usar como llaves. Puede ser una columna/índice o una lista de columnas/índices.
- **right_on**: Columnas o índices del DataFrame derecho para usar como llaves. Puede ser una columna/índice o una lista de columnas/índices.
- **suffixes**: Una tupla de strings para agregar a las columnas con el mismo nombre en ambos DataFrames. El default es ('_x', '_y').

In [None]:
# Creando DataFrames de ejemplo
df1 = pd.DataFrame({
    'ID': [1, 2, 3, 4],
    'Producto': ['Manzana', 'Banana', 'Cherry', 'Durazno']
})

df2 = pd.DataFrame({
    'ID': [3, 4, 5, 6],
    'Precio': [15, 20, 25, 30]
})

print('df1', '\n', df1)

In [None]:
print('df2', '\n', df2)

### **Inner Join**

In [None]:
inner_join_df = pd.merge(df1, df2, on='ID', how='inner')
print(inner_join_df)

### **Left Join**

In [None]:
left_join_df = pd.merge(df1, df2, on='ID', how='left')
print(left_join_df)

### **Right Join**

In [None]:
right_join_df = pd.merge(df1, df2, on='ID', how='right')
print(right_join_df)

In [None]:
right_join_df = pd.merge(df2, df1, on='ID', how='left')
print(right_join_df)

### **Full Join**

In [None]:
full_outer_join_df = pd.merge(df1, df2, on='ID', how='outer')
print(full_outer_join_df)

### **Cross Join**

In [None]:
cross_join_df = pd.merge(df1, df2, how='cross')
print(cross_join_df)

# Joins Verticales

El método append se utiliza para añadir filas de un DataFrame a otro.

Nota: append no realiza un join basado en llaves, simplemente añade las filas del segundo DataFrame al final del primero, lo cual puede resultar en un DataFrame con una estructura de columnas mixtas si los DataFrames originales son diferentes.

In [None]:
# Creando DataFrames de ejemplo
df1 = pd.DataFrame({
    'ID': [1, 2, 3, 4],
    'Producto': ['Manzana', 'Banana', 'Cherry', 'Durazno'],
    'Precio' : [10.5, 20.3, 45.9, 70]
})

df2 = pd.DataFrame({
    'ID': [5, 6, 7, 10],
    'Producto': ['Kiwi', 'Pera', 'Manzana', 'Durazno']
})

print('df1', '\n', df1)

In [None]:
print('df2', '\n', df2)

In [None]:
pd.concat([df1, df2], ignore_index=True)

# Ejercicios de Práctica: Dataset del Titanic

## Ejercicio 1: Selección de Columnas y Filtrado de Datos

1. **Selección de Columnas:**
   - Carga el dataset del Titanic.
   - Selecciona las columnas 'Name', 'Age' y 'Survived' y muestra las primeras 10 filas.

2. **Filtrado de Datos:**
   - Filtra las filas donde la edad es mayor a 30 años y muestra las primeras 10 filas.

## Ejercicio 2: Manipulación de DataFrames

1. **Crear Nuevas Columnas:**
   - Crea una nueva columna 'Family_Size' que sea la suma de las columnas 'SibSp' y 'Parch'.
   - Muestra las primeras 10 filas de las columnas 'SibSp', 'Parch' y 'Family_Size'.

2. **Renombrar Columnas:**
   - Renombra la columna 'Fare' a 'Ticket_Price' y muestra las primeras 10 filas.

3. **Eliminar Columnas:**
   - Elimina la columna 'Cabin' y muestra las primeras 10 filas.


## Ejercicio 3: Transformaciones y Agrupaciones

1. **Aplicar Funciones:**
   - Crea una nueva columna 'Age_Category' que clasifique a las personas como 'Child' (menor de 18), 'Adult' (entre 18 y 60) o 'Senior' (mayor de 60).

2. **Agrupaciones:**
   - Agrupa el DataFrame por 'Pclass' y calcula la media de 'Age' y 'Ticket_Price' para cada clase.

3. **Agrupaciones Múltiples:**
   - Agrupa el DataFrame por 'Sex' y 'Survived' y calcula el tamaño de cada grupo.