# Tarea 08

En esta tarea vas a analizar las tablas **telco.csv** y **cancer.csv** que se encuentra en la carpeta de data. A continuación te describo ambas para que te familiarices con ellas.

## Tabla telco.csv

La tabla resume la estructura del dataset **Telco Customer Churn**, que contiene información de clientes de una empresa de telecomunicaciones orientada a un problema de clasificación binaria. Incluye variables numéricas que describen la permanencia y los cargos económicos del cliente, variables categóricas nominales relacionadas con características demográficas, servicios contratados y métodos de pago, y una variable categórica ordinal (Contract) que refleja la duración del compromiso contractual. Finalmente, la columna **Churn** actúa como objetivo, **indicando si el cliente abandonó o no el servicio (1 si abandonó / 0 si no abandonó)**, lo que permite analizar y modelar los factores asociados a la deserción de clientes.

A continuación te muestro una breve descripción de sus columnas.

| Columna          | Tipo lógico | Observación                            |
| ---------------- | ----------- | -------------------------------------- |
| tenure           | Numérica    | Meses de permanencia                   |
| MonthlyCharges   | Numérica    | Cargo mensual                          |
| TotalCharges     | Numérica    | Cargo total acumulado                  |
| gender           | Nominal     | Categoría sin orden                    |
| SeniorCitizen    | Nominal     | Binaria (0/1), tratada como categórica |
| Partner          | Nominal     | Sí / No                                |
| Dependents       | Nominal     | Sí / No                                |
| PhoneService     | Nominal     | Sí / No                                |
| MultipleLines    | Nominal     | Sí / No / No phone service             |
| InternetService  | Nominal     | DSL / Fiber / No                       |
| OnlineSecurity   | Nominal     | Sí / No / No internet service          |
| OnlineBackup     | Nominal     | Sí / No / No internet service          |
| DeviceProtection | Nominal     | Sí / No / No internet service          |
| TechSupport      | Nominal     | Sí / No / No internet service          |
| StreamingTV      | Nominal     | Sí / No / No internet service          |
| StreamingMovies  | Nominal     | Sí / No / No internet service          |
| PaperlessBilling | Nominal     | Sí / No                                |
| PaymentMethod    | Nominal     | Método de pago                         |
| Contract         | Ordinal     | Month-to-month < One year < Two year   |
| **Churn**        | Nominal     | Variable objetivo (binaria: 1=abandono / 0=fidelidad)  |

De hecho se recomienda hacer el preprocesamiento con este esquema:

```python

cols_num = ['tenure', 'MonthlyCharges', 'TotalCharges']
cols_cat = ['gender', 'SeniorCitizen', 'Partner', 'Dependents',
    'PhoneService', 'MultipleLines', 'InternetService',
    'OnlineSecurity', 'OnlineBackup', 'DeviceProtection',
    'TechSupport', 'StreamingTV', 'StreamingMovies',
    'PaperlessBilling', 'PaymentMethod','Contract']

cols_onehot  = ['gender', 'SeniorCitizen', 'Partner', 'Dependents',
    'PhoneService', 'MultipleLines', 'InternetService',
    'OnlineSecurity', 'OnlineBackup', 'DeviceProtection',
    'TechSupport', 'StreamingTV', 'StreamingMovies',
    'PaperlessBilling', 'PaymentMethod']  # NOMINALES → One-Hot
cols_ordinal = ['Contract']

# Categorías ordenadas para las ordinales (mismo orden que en cols_ordinal)
categorias_ordinales = [ ['Month-to-month', 'One year', 'Two year']]  # lista de listas
```


## Tabla cancer.csv

La tabla **cancer.csv** corresponde al clásico Wisconsin Breast Cancer Dataset, adaptado a un problema de clasificación binaria. Contiene mediciones numéricas obtenidas a partir de imágenes de biopsias de mama, las cuales describen características geométricas y de textura de los núcleos celulares, como radios, perímetros, áreas, suavidad y concavidad, entre otras. Todas las variables predictoras son numéricas continuas, y la columna objetivo indica el diagnóstico del tumor, donde 1 corresponde a tumor maligno y 0 a tumor benigno. Este dataset es ampliamente utilizado para estudiar técnicas de clasificación, evaluación de métricas y análisis de separación entre clases en contextos médicos.

| Columna                 | Tipo lógico | Observación                                  |
| ----------------------- | ----------- | -------------------------------------------- |
| radius_mean             | Numérica    | Media del radio del núcleo                   |
| texture_mean            | Numérica    | Media de la textura                          |
| perimeter_mean          | Numérica    | Media del perímetro                          |
| area_mean               | Numérica    | Media del área                               |
| smoothness_mean         | Numérica    | Media de la suavidad                         |
| compactness_mean        | Numérica    | Media de la compacidad                       |
| concavity_mean          | Numérica    | Media de la concavidad                       |
| concave_points_mean     | Numérica    | Media de puntos cóncavos                     |
| symmetry_mean           | Numérica    | Media de la simetría                         |
| fractal_dimension_mean  | Numérica    | Media de la dimensión fractal                |
| radius_se               | Numérica    | Error estándar del radio                     |
| texture_se              | Numérica    | Error estándar de la textura                 |
| perimeter_se            | Numérica    | Error estándar del perímetro                 |
| area_se                 | Numérica    | Error estándar del área                      |
| smoothness_se           | Numérica    | Error estándar de la suavidad                |
| compactness_se          | Numérica    | Error estándar de la compacidad              |
| concavity_se            | Numérica    | Error estándar de la concavidad              |
| concave_points_se       | Numérica    | Error estándar de puntos cóncavos            |
| symmetry_se             | Numérica    | Error estándar de la simetría                |
| fractal_dimension_se    | Numérica    | Error estándar de la dimensión fractal       |
| radius_worst            | Numérica    | Valor máximo del radio                       |
| texture_worst           | Numérica    | Valor máximo de la textura                   |
| perimeter_worst         | Numérica    | Valor máximo del perímetro                   |
| area_worst              | Numérica    | Valor máximo del área                        |
| smoothness_worst        | Numérica    | Valor máximo de la suavidad                  |
| compactness_worst       | Numérica    | Valor máximo de la compacidad                |
| concavity_worst         | Numérica    | Valor máximo de la concavidad                |
| concave_points_worst    | Numérica    | Valor máximo de puntos cóncavos              |
| symmetry_worst          | Numérica    | Valor máximo de la simetría                  |
| fractal_dimension_worst | Numérica    | Valor máximo de la dimensión fractal         |
| **diagnosis**           | Nominal     | Variable objetivo (1 = maligno, 0 = benigno) |
