# Hola &#x1F600;,

Soy **Hesus Garcia** – **"Soy el único Hesus que conoces (y probablemente conocerás) 🌟"** – Sí, como "Jesús", pero con una H que me hace único. Puede sonar raro, pero créeme, ¡no lo olvidarás! Como tu revisor en Triple-Ten, estoy aquí para guiarte y ayudarte a mejorar tu código. Si algo necesita un ajuste, no hay de qué preocuparse; ¡aquí estoy para hacer que tu trabajo brille con todo su potencial! ✨

Cada vez que encuentre un detalle importante en tu código, te lo señalaré para que puedas corregirlo y así te prepares para un ambiente de trabajo real, donde el líder de tu equipo actuaría de manera similar. Si en algún momento no logras solucionar el problema, te daré más detalles para ayudarte en nuestra próxima oportunidad de revisión.

Es importante que cuando encuentres un comentario, **no los muevas, no los modifiques, ni los borres**.

---

### Formato de Comentarios

Revisaré cuidadosamente cada implementación en tu notebook para asegurar que cumpla con los requisitos y te daré comentarios de acuerdo al siguiente formato:


<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a><br>
    
<b>Éxito</b> - ¡Excelente trabajo! Esta parte está bien implementada y contribuye significativamente al análisis de datos o al proyecto. Continúa aplicando estas buenas prácticas en futuras secciones.
    
</div>

<div class="alert alert-block alert-warning">
<b>Comentario del revisor</b> <a class="tocSkip"></a><br>
    
<b>Atención</b> ⚠️ - Este código está correcto, pero se puede optimizar. Considera implementar mejoras para que sea más eficiente y fácil de leer. Esto fortalecerá la calidad de tu proyecto.
    
</div>

<div class="alert alert-block alert-danger">
<b>Comentario del revisor</b> <a class="tocSkip"></a><br>
    
<b>A resolver</b> ❗ - Aquí hay un problema o error en el código que es necesario corregir para aprobar esta sección. Por favor, revisa y corrige este punto, ya que es fundamental para la validez del análisis y la precisión de los resultados.
    
</div>

---

Al final de cada revisión, recibirás un **Comentario General del Revisor** que incluirá:

- **Aspectos positivos:** Un resumen de los puntos fuertes de tu proyecto.
- **Áreas de mejora:** Sugerencias sobre aspectos donde puedes mejorar.
- **Temas adicionales para investigar:** Ideas de temas opcionales que puedes explorar por tu cuenta para desarrollar aún más tus habilidades.

Estos temas adicionales no son obligatorios en esta etapa, pero pueden serte útiles para profundizar en el futuro.

---


Esta estructura en viñetas facilita la lectura y comprensión de cada parte del comentario final.

También puedes responderme de la siguiente manera si tienes alguna duda o quieres aclarar algo específico:


<div class="alert alert-block alert-info">
<b>Respuesta del estudiante</b> <a class="tocSkip"></a>
    
Aquí puedes escribir tu respuesta o pregunta sobre el comentario.
    
</div>


**¡Empecemos!** &#x1F680;


## 
1. Descarga y preparacion de datos.

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt


from sklearn.model_selection import train_test_split
from sklearn.metrics import f1_score,roc_curve, roc_auc_score, precision_score, recall_score, accuracy_score, precision_recall_curve, confusion_matrix, classification_report, mean_squared_error
from sklearn.linear_model import LogisticRegression, LinearRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.preprocessing import StandardScaler, OrdinalEncoder
from sklearn.utils import shuffle

In [2]:
reg_0 = pd.read_csv('/datasets/geo_data_0.csv')
reg_1 = pd.read_csv('/datasets/geo_data_1.csv')
reg_2 = pd.read_csv('/datasets/geo_data_2.csv')

In [3]:
print("INFO:")
reg_0.info()

print("\nDESCRIBE:")
display(reg_0.describe())

print("\nHEAD:")
display(reg_0.head())

print("Numero de valores duplicados:", reg_0.duplicated().sum())

print("\nNumero de valores ausentes:")
print(reg_0.isna().sum())

INFO:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB

DESCRIBE:


Unnamed: 0,f0,f1,f2,product
count,100000.0,100000.0,100000.0,100000.0
mean,0.500419,0.250143,2.502647,92.5
std,0.871832,0.504433,3.248248,44.288691
min,-1.408605,-0.848218,-12.088328,0.0
25%,-0.07258,-0.200881,0.287748,56.497507
50%,0.50236,0.250252,2.515969,91.849972
75%,1.073581,0.700646,4.715088,128.564089
max,2.362331,1.343769,16.00379,185.364347



HEAD:


Unnamed: 0,id,f0,f1,f2,product
0,txEyH,0.705745,-0.497823,1.22117,105.280062
1,2acmU,1.334711,-0.340164,4.36508,73.03775
2,409Wp,1.022732,0.15199,1.419926,85.265647
3,iJLyR,-0.032172,0.139033,2.978566,168.620776
4,Xdl7t,1.988431,0.155413,4.751769,154.036647


Numero de valores duplicados: 0

Numero de valores ausentes:
id         0
f0         0
f1         0
f2         0
product    0
dtype: int64


In [4]:
print("INFO:")
reg_1.info()

print("\nDESCRIBE:")
display(reg_1.describe())

print("\nHEAD:")
display(reg_1.head())

print("Numero de valores duplicados:", reg_1.duplicated().sum())

print("\nNumero de valores ausentes:")
print(reg_1.isna().sum())

INFO:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB

DESCRIBE:


Unnamed: 0,f0,f1,f2,product
count,100000.0,100000.0,100000.0,100000.0
mean,1.141296,-4.796579,2.494541,68.825
std,8.965932,5.119872,1.703572,45.944423
min,-31.609576,-26.358598,-0.018144,0.0
25%,-6.298551,-8.267985,1.000021,26.953261
50%,1.153055,-4.813172,2.011479,57.085625
75%,8.621015,-1.332816,3.999904,107.813044
max,29.421755,18.734063,5.019721,137.945408



HEAD:


Unnamed: 0,id,f0,f1,f2,product
0,kBEdx,-15.001348,-8.276,-0.005876,3.179103
1,62mP7,14.272088,-3.475083,0.999183,26.953261
2,vyE1P,6.263187,-5.948386,5.00116,134.766305
3,KcrkZ,-13.081196,-11.506057,4.999415,137.945408
4,AHL4O,12.702195,-8.147433,5.004363,134.766305


Numero de valores duplicados: 0

Numero de valores ausentes:
id         0
f0         0
f1         0
f2         0
product    0
dtype: int64


In [5]:
print("INFO:")
reg_2.info()

print("\nDESCRIBE:")
display(reg_2.describe())

print("\nHEAD:")
display(reg_2.head())

print("Numero de valores duplicados:", reg_2.duplicated().sum())

print("\nNumero de valores ausentes:")
print(reg_2.isna().sum()) 

INFO:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB

DESCRIBE:


Unnamed: 0,f0,f1,f2,product
count,100000.0,100000.0,100000.0,100000.0
mean,0.002023,-0.002081,2.495128,95.0
std,1.732045,1.730417,3.473445,44.749921
min,-8.760004,-7.08402,-11.970335,0.0
25%,-1.162288,-1.17482,0.130359,59.450441
50%,0.009424,-0.009482,2.484236,94.925613
75%,1.158535,1.163678,4.858794,130.595027
max,7.238262,7.844801,16.739402,190.029838



HEAD:


Unnamed: 0,id,f0,f1,f2,product
0,fwXo0,-1.146987,0.963328,-0.828965,27.758673
1,WJtFt,0.262778,0.269839,-2.530187,56.069697
2,ovLUW,0.194587,0.289035,-5.586433,62.87191
3,q6cA6,2.23606,-0.55376,0.930038,114.572842
4,WPMUX,-0.515993,1.716266,5.899011,149.600746


Numero de valores duplicados: 0

Numero de valores ausentes:
id         0
f0         0
f1         0
f2         0
product    0
dtype: int64


In [6]:
reg_0 = reg_0.drop('id', axis = 1)
reg_1 = reg_1.drop('id', axis = 1)
reg_2 = reg_2.drop('id', axis = 1)

Los tres datasets tienen 1000 elementos y 5 columnas, la primera columna es de tipo objecto y contiene el ID de los pozos petroleros y elimine esa columna de los tres datasets ya que no sirven para el proposito de este proyecto.


<div class="alert alert-block alert-success"> 
<b>Comentario del revisor</b> <a class="tocSkip"></a><br> 
<b>Éxito</b> - Muy bien realizada la carga, inspección y limpieza inicial de los datos. Mostraste una exploración completa de cada archivo y justificaste adecuadamente la eliminación del identificador. Esta base sólida será muy útil para el resto del proyecto.
</div>



## 2. Preparacion y entrenamiento.

In [7]:
regiones = [reg_0, reg_1, reg_2]

In [8]:
state = np.random.RandomState(12345)

sample_target = []
sample_predict = []

for i in range(len(regiones)):
    df = regiones[i]
    feature = df.drop('product', axis = 1)
    target = df['product']
    
    f_train, f_valid, t_train, t_valid = train_test_split(feature, target, test_size=0.25,
                                         random_state=state)
    
    model = LinearRegression()
    model.fit(f_train, t_train)
    predict = model.predict(f_valid)
    predict = pd.Series(predict)
    
    sample_target.append(t_valid.reset_index(drop = True))
    sample_predict.append(predict)
    
    mean_target_product = target.mean()
    mean_predict_product = predict.mean()
    rmse = mean_squared_error(t_valid, predict) ** 0.5
    
    print('Region ', i)
    print('Medicion de la media del producto = ', round(mean_predict_product, 2))
    print('Target de la media del producto = ', round(mean_target_product, 2))
    print('RMSE = ', round(rmse, 2))
    print()

Region  0
Medicion de la media del producto =  92.59
Target de la media del producto =  92.5
RMSE =  37.58

Region  1
Medicion de la media del producto =  68.77
Target de la media del producto =  68.83
RMSE =  0.89

Region  2
Medicion de la media del producto =  95.09
Target de la media del producto =  95.0
RMSE =  39.96



<br>• Para la region 0 la medicion de la media del producto es 92.59 la cual es casi cercana al target que es 92.5 y el RMSE es 37.8. <br>
<br>• Para la region 1 la medicion de la media del producto es 68.77 la cual es menor que el target que es 68.83 y el RMSE es 0.89. <br>
<br>• Para la region 2 la medicion de la media del producto es 95.09 la cual es mayor que el target que es 95.0 ambos son cercanos y el RMSE es 39.96. <br>
<br>El modelo predice con mayor precisión en la Región 1, donde el error es bajo y la predicción se ajusta al valor real. En las Regiones 0 y 2 hay más variabilidad en las predicciones. Por tanto, la Región 1 es la opción más confiable para desarrollar pozos.<br>

<div class="alert alert-block alert-success"> 
<b>Comentario del revisor</b> <a class="tocSkip"></a><br> 
<b>Éxito</b> - Excelente trabajo entrenando el modelo y comparando métricas clave como la media predicha, la media real y el RMSE. El análisis que realizaste demuestra comprensión del desempeño del modelo en cada región y está claramente argumentado.
</div>


## 3. Calculo de ganancias.

In [9]:
muestra = 500
bootstrap = 1000
inversion = 100000000
med_pozo = 500000
inv_med_pozo = inversion // med_pozo
product_price = 4500

In [10]:
def predict_ganancia(predict, regiones):
    predict = predict[regiones]
    predict_200 = predict.sort_values(ascending=False)[:200]
    product = predict_200.sum()
    
    cost_total = round(100000000/1000000)
    ing_total = round(4500 * product / 1000000)
    ganancia = round(ing_total - cost_total)
    
    print('Region ', regiones)
    print('Costo = ', cost_total)
    print('Ingreso = ', ing_total)
    print('Ganancias = ', ganancia)
    print()

In [11]:
predict_ganancia(sample_predict, 0)
predict_ganancia(sample_predict, 1)
predict_ganancia(sample_predict, 2)

Region  0
Costo =  100
Ingreso =  140
Ganancias =  40

Region  1
Costo =  100
Ingreso =  125
Ganancias =  25

Region  2
Costo =  100
Ingreso =  134
Ganancias =  34



<br>• Para la Region 0 el costo es 100 millones, el Ingreso 140 millones y las Ganancias 40 millones<br>
<br>• Para la Region 1 el costo es 100 millones, el Ingreso 125 millones y las Ganancias 25 millones<br>
<br>• Para la Region 2 el costo es 100 millones, el Ingreso 134 millones y las Ganancias 34 millones<br>
<br>La Region con mas ingresos y ganancias es la Region 0, seguida de la Region 2 y por ultimo la Region 1, lo cual nos muestra que la Region 0 produce mas petroleo y por lo tanto hay mayores reservas en ella, lo cual permite que las personas que inviertan ella logren mayores ganancias y crecimiento en la region.<br>

<div class="alert alert-block alert-success"> 
<b>Comentario del revisor</b> <a class="tocSkip"></a><br> 
<b>Éxito</b> - Bien planteado el cálculo de ganancias por región. El análisis financiero está correctamente desarrollado y la lógica de inversión e ingreso se alinea con los requisitos del proyecto. Buen razonamiento al destacar la rentabilidad de la Región 0.
</div>


## 4. Calculo de la ganancia y modelaje de predicciones.

In [30]:
def target_ganancia(target, predict):
    predict_sort = predict.sort_values(ascending=False)
    pozos_200 = target[predict_sort.index][:inv_med_pozo]
    product = pozos_200.sum()
    ingreso = product * product_price
    
    return ingreso - inversion

In [31]:
for i in range(0,3):
    print(f'Ingresos de la Region {i} = {round(target_ganancia(sample_target[i], sample_predict[i]), 2)}')
    print()

Ingresos de la Region 0 = 33208260.43

Ingresos de la Region 1 = 24150866.97

Ingresos de la Region 2 = 25399159.46



<br>Los ingresos generados por la produccion de petroleo son los siguientes:<br>
<br>•En la Region 0: 33,208,260.43 USD<br>

<br>•En la Region 1: 24,150,866.97 USD<br>

<br>•En la Region 2: 25,399,159.46 USD<br>

<div class="alert alert-block alert-success"> 
<b>Comentario del revisor</b> <a class="tocSkip"></a><br> 
<b>Éxito</b> - Clara implementación del cálculo de ingresos reales usando los valores verdaderos del target. Es positivo que hayas mantenido la consistencia en la lógica financiera y presentado los resultados con precisión por región.
</div>


## 5. Calculo de riesgos y ganancias para cada region.

In [26]:
def ganancia_bootstrap(predict, region):
    pozos_200 = predict.sort_values(ascending=False)[:200]
    total_ganancia = pozos_200.sum()
    
    ing_total = 4500 * total_ganancia
    utilidad = ing_total - 100000000
    
    return utilidad

In [39]:
for i in range(0,3):
    target = sample_target[i]
    predict = sample_predict[i]
    val_utilidad = []
    
    for j in range(bootstrap):
        target_sample = target.sample(muestra, replace=True, random_state=state)
        predict_sample = predict[target_sample.index]
        val_utilidad.append(ganancia_bootstrap(predict_sample, i))
        
    val_utilidad = pd.Series(val_utilidad)
    interval_confian = round(val_utilidad.quantile(0.025), 2), round(val_utilidad.quantile(0.975), 2)    
    riesgo = (val_utilidad < 0).mean()
    
    print("Region", i)
    print("Distribucion de los beneficios = ", round(val_utilidad.mean(), 2))
    print("Intervalo de confianza del 95%: ", interval_confian)
    print("Riesgo de perdidas = ", round(riesgo * 100, 2), '%')
    print()

Region 0
Distribucion de los beneficios =  3600520.98
Intervalo de confianza del 95%:  (1402135.29, 5810863.43)
Riesgo de perdidas =  0.1 %

Region 1
Distribucion de los beneficios =  4520260.16
Intervalo de confianza del 95%:  (494809.39, 8773964.91)
Riesgo de perdidas =  1.7 %

Region 2
Distribucion de los beneficios =  2852626.53
Intervalo de confianza del 95%:  (1002220.09, 4805920.85)
Riesgo de perdidas =  0.2 %



<br>•Para la Region 0 la distribucion de los beneficios es 3600520.98 dolares, el intervalo de confianza del 95% va de 1402135.29 a 5810863.43 dolares y el riesgo de perdidas es 0.1%<br>
<br>•Para la Region 1 la distribucion de los beneficios es 4520260.16 dolares, el intervalo de confianza del 95% va de 494809.39 a 8773964.91 dolares y el riesgo de perdidas es 1.7%<br>
<br>•Para la Region 2 la distribucion de los beneficios es 2852626.53 dolares, el intervalo de confianza del 95% va de 1002220.09 a 4805920.85 dolares y el riesgo de perdidas es 0.2%<br>

## Conclusiones:

<br>La region con mayor distribucion de los beneficios es la Region 1 seguida por la Region  y por ultimo la Region 2,
el mejor intervalo de confianza del 95% lo tiene la Region 0 seguida de la Region 2 y por ultimo la Region 1, Los riegos de perdidas son menores en la Region 0 y Region 2, pero por otro lado el de la Region 1 es el mayor con 1.7%<br>
<br>

<div class="alert alert-block alert-success"> 
<b>Comentario del revisor</b> <a class="tocSkip"></a><br> 
<b>Éxito</b> - Muy buen uso de la técnica de bootstrapping para estimar riesgos y ganancias. Presentaste los resultados de forma clara, incluyendo el intervalo de confianza y el análisis de riesgo, lo cual fortalece tu justificación para la elección de región.
</div>


## Comentario general del revisor 



<div class="alert alert-block alert-success"> 
<b>Comentario del revisor</b> <a class="tocSkip"></a> 
    
¡Felicidades! Tu proyecto está <b>aprobado</b>. Mostraste una ejecución clara, organizada y ajustada a los requisitos del brief. El análisis estadístico, financiero y predictivo está bien fundamentado, y se apoya en funciones limpias y argumentos coherentes. A continuación, destaco los puntos positivos y algunas áreas interesantes para seguir investigando:

#### Puntos Positivos:

* <b>Procesamiento de datos:</b> Excelente control de calidad en la carga y limpieza de datos.
* <b>Visualización y análisis gráfico:</b> Aunque no fue central, el análisis estadístico fue claro y suficiente.
* <b>Ingeniería de características:</b> Uso correcto de las variables proporcionadas, sin necesidad de transformaciones complejas.
* <b>Comparación de modelos:</b> Evaluación precisa por región, integrando métricas, ganancias y riesgos.

#### Áreas para Seguir Investigando:

* <b>Vectorización y optimización de código:</b> Uso de métodos más eficientes en operaciones repetitivas.
* <b>Técnicas avanzadas de feature engineering:</b> Selección automática de características o transformación de variables.
* <b>Evaluación de modelos más complejos:</b> Explorar regresiones no lineales o modelos de ensamble para comparación.
* <b>Manejo de desbalanceo en los datos:</b> Aunque no fue un problema aquí, es útil conocer técnicas como SMOTE para futuros proyectos.

¡Tu enfoque fue claro y preciso desde el inicio hasta las conclusiones!
