### 1. Business case & Data Collection

1. **Business understanding**: lo primero de todo es identificar la necesidad, el problema de negocio que intentamos resolver.  

El primero objetivo con el que iniciamos este EDA fue encontrar las condiciones más favorables para poder afrontar una expedición en el Himalaya. Qué variables podían ser fundamentales.  
Entendíamos que, claramente, el tiempo o la estación del año en los que afrontar un reto de estas dimensiones, eran fundamentales pero, ¿nos olvidábamos de algo? ¿Habría alguna variable que pudiera decidir el éxito o fracaso? O, ¿incluso perder la vida?

2. **Hipótesis**: Tendremos que realizar afirmaciones sobre los datos y comprobar si de verdad se cumple, basándonos en los mismos. Estos dos primeros puntos son fundamentales ya que siempre hay que tener una meta cuando realicemos un EDA. Con la hipótesis tiene que venir un **plan de acción**. Tenemos unos datos, unos posibles resultados...pero si ocurre esto o lo otro, ¿qué hacemos? ¿qué decisiones vamos a tomar?

3. **Requerimientos de los datos**: en este punto habrá que listar los datos necesarios, a alto nivel, para llevar a cabo el análisis: por ejemplo, los datos de ventas de los ultimos 3 años desagregados por tipo de cliente, o datos de bolsa de los ultimos 2 meses de las empresas A, B y C.

4. **Disponibilidad**: primer punto de inflexión en el proyecto. Si no podemos acceder al dato necesario para la analítica, bien porque no existe o bien porque pertenece a alguna organización, no será posible continuar por esa vía y quizá haya que replantear el proyecto y/o acudir a otras fuentes.

5. **Adquisición de datos**: es el momento de ir a por los datos, ya sea en bases de datos de la empresa, datasets públicos, APIs, Web Scrapping, comprando bases de datos o escribiendo a organizaciones para que cedan sus datos.

In [2]:
import pandas as pd

# Diccionario con nombres de variables y rutas
paths = {
    'df_exped': '../data/source/exped.csv',
    'df_data': '../data/source/himalayan_data_dictionary.csv',
    'df_members': '../data/source/members.csv',
    'df_peaks': '../data/source/peaks.csv',
    'df_refer': '../data/source/refer.csv'
}

# Diccionario para almacenar los DataFrames
dataframes = {}

# Cargar los archivos
for name, path in paths.items():
    try:
        df = pd.read_csv(path, encoding='utf-8')
    except UnicodeDecodeError:
        df = pd.read_csv(path, encoding='latin1')
    dataframes[name] = df

# Mostrar info y head de cada DataFrame
for name, df in dataframes.items():
    print(f"\n--- {name} ---")
    print(df.info())
    print(df.head())

  df = pd.read_csv(path, encoding='utf-8')
  df = pd.read_csv(path, encoding='utf-8')



--- df_exped ---
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 11425 entries, 0 to 11424
Data columns (total 65 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   expid       11425 non-null  object 
 1   peakid      11425 non-null  object 
 2   year        11425 non-null  int64  
 3   season      11425 non-null  object 
 4   host        11425 non-null  object 
 5   route1      11275 non-null  object 
 6   route2      360 non-null    object 
 7   route3      30 non-null     object 
 8   route4      5 non-null      object 
 9   nation      11425 non-null  object 
 10  leaders     11401 non-null  object 
 11  sponsor     10609 non-null  object 
 12  success1    11425 non-null  bool   
 13  success2    11425 non-null  bool   
 14  success3    11425 non-null  bool   
 15  success4    11425 non-null  bool   
 16  ascent1     2778 non-null   object 
 17  ascent2     101 non-null    object 
 18  ascent3     11 non-null     object 
 19  ascent4

6. **Calidad**: segundo punto de inflexión en el proyecto. Es fundamental que los datos sean válidos para el análisis, suficientes, que no tengan excesivos missings, ni estén manipulados.

In [None]:
for key in dataframes.keys():
    print(f"Para el Dataframe {key} tenemos: {dataframes[key].size} potenciales registros.")


Para el Dataframe df_exped tenemos: 742625 potenciales registros.
Para el Dataframe df_data tenemos: 495 potenciales registros.
Para el Dataframe df_members tenemos: 5429000 potenciales registros.
Para el Dataframe df_peaks tenemos: 11040 potenciales registros.
Para el Dataframe df_refer tenemos: 187032 potenciales registros.


7. **Revisión de hipótesis**: una vez tenemos todos los datos recolectados, quizá tengamos que replantear la hipótesis al darnos cuenta de que tenemos otros datos u otras variables con las que no contábamos. Si tenemos menos variables que las iniciales, también habrá que replantearse el objetivo del proyecto.

A priori vamos a qudarnos con los datos de las siguientes tablas:
1. exped.csv
2. members.csv
3. peaks.csv