<a href="https://colab.research.google.com/github/William-Burbano-Lima/Analisis_Datos_Explorador/blob/main/Analisis_datos_Python_05_08_2024.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### Bootcamp 5/08/2024
### Análisis de Datos con Python

#### Objetivo:
Familiarizar a los Campistas con las técnicas esenciales de análisis de datos utilizando Python y la biblioteca Pandas, con un enfoque en la aplicación práctica a través de un proyecto inicial.

#### Estructura de la Clase:

1. **Introducción y Configuración (30 minutos)**
2. **Fundamentos de Pandas (45 minutos)**
3. **Limpieza y Preparación de Datos (45 minutos)**
4. **Análisis Exploratorio de Datos (EDA) (1 hora)**
5. **Visualización de Datos (45 minutos)**
6. **Proyecto Final y Conclusión (15 minutos)**

---

### 1. Introducción y Configuración (30 minutos)

**Objetivo**: Configurar el entorno de desarrollo y presentar la clase y el proyecto inicial.

**Proyecto Inicial**:
- **Pregunta**: ¿Qué factores influyeron en la supervivencia de los pasajeros del Titanic?
- **Conjunto de Datos**: Titanic ([link](https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv))

  * Titanic Enlace 2 ([link](https://github.com/William-Burbano-Lima/Analisis_Datos_Explorador/blob/main/titanic.csv))


**Pasos**:
1. **Presentación del Ejecutor Técnico y Objetivos del Curso**
2. **Configuración del Entorno de Desarrollo**:
   - Instalación de Python, Jupyter Notebook y bibliotecas necesarias (`pandas`, `numpy`, `matplotlib`).
   - Cargar el archivo CSV del Titanic en un DataFrame de Pandas.

**Código Base**:
```sh
pip install pandas numpy matplotlib jupyter
```
```python
import pandas as pd

# Cargar el archivo CSV
df = pd.read_csv('https://github.com/William-Burbano-Lima/Analisis_Datos_Explorador/blob/main/titanic.csv')

# Mostrar las primeras filas del DataFrame
print(df.head())
```

### 2. Fundamentos de Pandas (45 minutos)

**Objetivo**: Introducir los conceptos básicos de Pandas.

**Contenido**:
1. **Estructuras de Datos en Pandas**:
   - Series y DataFrames.
2. **Creación de DataFrames y Series**:
   - Creación desde diccionarios y listas.
3. **Importación de Datos**:
   - Desde archivos CSV y Excel.
4. **Exploración Inicial de Datos**:
   - Métodos `head()`, `info()`, `describe()`.

**Ejercicio**:
- Importar y explorar el conjunto de datos del Titanic.

**Código Base**:
```python
# Crear un DataFrame simple
data = {'Nombre': ['Ana', 'Luis', 'María', 'Juan'], 'Edad': [23, 25, 21, 22]}
df_simple = pd.DataFrame(data)
print(df_simple)

# Cargar el archivo CSV del Titanic
df = pd.read_csv('https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv')

# Exploración inicial
print(df.head())
print(df.info())
print(df.describe())
```

### 3. Limpieza y Preparación de Datos (45 minutos)

**Objetivo**: Aprender técnicas de limpieza y preparación de datos.

**Contenido**:
1. **Manejo de Valores Nulos**:
   - `dropna()`, `fillna()`.
2. **Renombrar Columnas**:
   - `rename()`.
3. **Filtrado y Selección de Datos**:
   - Uso de `loc` e `iloc`.
4. **Creación y Eliminación de Columnas**:
   - Añadir columnas derivadas.

**Ejercicio**:
- Limpiar el conjunto de datos del Titanic.

**Código Base**:
```python
# Manejo de valores nulos
df['Age'].fillna(df['Age'].median(), inplace=True)
df.dropna(subset=['Embarked'], inplace=True)

# Renombrar columnas
df.rename(columns={'Survived': 'Superviviente', 'Pclass': 'Clase'}, inplace=True)

# Filtrado de datos
df_filtrado = df[df['Age'] > 18]

# Crear una nueva columna
df['Mayor_Edad'] = df['Age'] > 18

# Mostrar los cambios
print(df.head())
```

### 4. Análisis Exploratorio de Datos (EDA) (1 hora)

**Objetivo**: Realizar análisis exploratorios para obtener insights iniciales.

**Contenido**:
1. **Estadísticas Descriptivas**:
   - Uso de `describe()`.
2. **Distribución de Frecuencias**:
   - `value_counts()`.
3. **Agrupación y Agregación de Datos**:
   - `groupby()`.
4. **Correlación entre Variables**:
   - `corr()`.

**Ejercicio**:
- Realizar un análisis exploratorio del conjunto de datos del Titanic.

**Código Base**:
```python
# Estadísticas descriptivas
print(df.describe())

# Distribución de frecuencias
print(df['Superviviente'].value_counts())

# Agrupación por clase y cálculo de tasa de supervivencia
print(df.groupby('Clase')['Superviviente'].mean())

# Correlación
print(df.corr())
```

### 5. Visualización de Datos (45 minutos)

**Objetivo**: Introducir la visualización de datos usando Matplotlib.

**Contenido**:
1. **Creación de Gráficos Básicos**:
   - Histogramas, gráficos de barras, scatter plots.
2. **Personalización de Gráficos**:
   - Títulos, etiquetas, leyendas.
3. **Guardado de Gráficos**:
   - Exportar gráficos como imágenes.

**Ejercicio**:
- Crear visualizaciones para el conjunto de datos del Titanic.

**Código Base**:
```python
import matplotlib.pyplot as plt

# Histograma de edades
plt.hist(df['Age'].dropna(), bins=30)
plt.title('Distribución de Edades')
plt.xlabel('Edad')
plt.ylabel('Frecuencia')
plt.show()

# Gráfico de barras de número de pasajeros por clase
df['Clase'].value_counts().plot(kind='bar')
plt.title('Número de Pasajeros por Clase')
plt.xlabel('Clase')
plt.ylabel('Número de Pasajeros')
plt.show()

# Scatter plot de Edad vs. Tarifa
plt.scatter(df['Age'], df['Fare'])
plt.title('Edad vs. Tarifa')
plt.xlabel('Edad')
plt.ylabel('Tarifa')
plt.show()
```

### 6. Proyecto Final y Conclusión (15 minutos)

**Objetivo**: Aplicar todos los conceptos aprendidos en un mini-proyecto final.

**Proyecto**:
- **Pregunta**: ¿Qué factores influyeron en la supervivencia de los pasajeros del Titanic?
- **Tareas**:
  - Realizar un análisis completo del conjunto de datos del Titanic.
  - Crear visualizaciones para respaldar los hallazgos.
  - Presentar los resultados y discutir conclusiones.

**Instrucciones**:
1. **Carga y Exploración de Datos**:
   - Importar el conjunto de datos y realizar una exploración inicial.
2. **Limpieza de Datos**:
   - Manejar valores nulos y renombrar columnas según sea necesario.
3. **Análisis Exploratorio**:
   - Realizar análisis estadísticos y crear visualizaciones para encontrar patrones.
4. **Visualización**:
   - Crear gráficos que respalden los hallazgos del análisis.

**Código Base**:
```python
# Ya ha sido cubierto en las secciones anteriores.
# Los estudiantes aplicarán los conceptos aprendidos para realizar el proyecto final.
```

### Conclusión

- **Resumen**: Repaso rápido de lo aprendido durante la clase.
- **Preguntas y Respuestas**: Espacio para resolver dudas y clarificar conceptos.
- **Próximos Pasos**: Recomendaciones para seguir aprendiendo y practicando análisis de datos con Python.

---

### Recursos Adicionales

1. **Documentación de Pandas**: [Pandas Documentation](https://pandas.pydata.org/pandas-docs/stable/)
2. **Curso de Pandas en DataCamp**: [Pandas Foundations](https://www.datacamp.com/courses/pandas-foundations)
3. **Tutoriales en YouTube**:
   - [Corey Schafer - Pandas Tutorial Series](https://www.youtube.com/playlist?list=PL-osiE80TeTt2d9bfVyTiXJA-UTHn6WwU)
   - [Data School - Pandas with Python](https://www.youtube.com/playlist?list=PL5-da3qGB5IB6lK5gc6kLBOr0WiiFOVI5)

Estos ejercicios y estructura de clase proporcionarán una experiencia de aprendizaje completa y práctica para los participantes del bootcamp.