# Tareas a realizar
---
1. Introduccion
   - Contexto
   - Objectivo: Que queremos predecir y porques
    
2. Cargar el *dataset tips* <https://raw.githubusercontent.com/mwaskom/seaborn-data/refs/heads/master/tips.csv> con Pandas
    
3. Realizar una **exploracion estadistica descriptiva** de los datos con Panda
   - Descripcion de las variables.
   - Correlacion 
   - Valores unicos ( Unique) , mas frecuentes ( top ) , frecuencia de valor mas comun (freq).
   - Inspeccion de balanceo varibales categoricas.
  
4. Limpieza de datos
   - Detectar valores nulos.
   - Corregir valores nulos.
   - Corregir tipos de datos.
   - Eliminar duplicados.
   - Identificar Outliers y tratarlos.
  
5. EDAS (Exploratory Data Analisys)
   - Univariante
   - Bivariante
   - Multivariante
  
6. Modelado
   - Probar *varios* modelos de Scikit Learn , para predecir la columna tip del dataset
   - Escalar las colu,nas numericas
   - Particionar los datos con *train_test_split*
   - Ver el mejor modelo

## 1. Indroduccion

Disponemos de un Data Set con los registro de los gastos de comidas de un restaurante y otras caracteristicas considerada utiles.

El objetivo es predecir la propina  que dejan los clientes en un restaurante, creando un modelo de scikit-learn.


## 2. Cargar el dataset

- Copiamos los datos en formato csv y lo colocamos en un nuevo archivo en el directorio (tips.csv) 
- Importamos Pandas
- Leemos un primer muestro de 20 filas aleatoria, para visualizar el dataframe, sobretodo ver el Header.
  

In [3]:
import pandas as pd

df = pd.read_csv('tips.csv')
print(df.sample(n=20))

     total_bill   tip     sex smoker   day    time  size
131       20.27  2.83  Female     No  Thur   Lunch     2
35        24.06  3.60    Male     No   Sat  Dinner     3
4         24.59  3.61  Female     No   Sun  Dinner     4
43         9.68  1.32    Male     No   Sun  Dinner     2
41        17.46  2.54    Male     No   Sun  Dinner     2
134       18.26  3.25  Female     No  Thur   Lunch     2
19        20.65  3.35    Male     No   Sat  Dinner     3
189       23.10  4.00    Male    Yes   Sun  Dinner     3
5         25.29  4.71    Male     No   Sun  Dinner     4
89        21.16  3.00    Male     No  Thur   Lunch     2
243       18.78  3.00  Female     No  Thur  Dinner     2
57        26.41  1.50  Female     No   Sat  Dinner     2
121       13.42  1.68  Female     No  Thur   Lunch     2
59        48.27  6.73    Male     No   Sat  Dinner     4
214       28.17  6.50  Female    Yes   Sat  Dinner     3
173       31.85  3.18    Male    Yes   Sun  Dinner     2
143       27.05  5.00  Female  

- Renombramos columnas

In [4]:
df.columns= ['Total Tiket', 'Propina','Genero','Fumador','Dia','Evento','Comensales']
print(df.head())

   Total Tiket  Propina  Genero Fumador  Dia  Evento  Comensales
0        16.99     1.01  Female      No  Sun  Dinner           2
1        10.34     1.66    Male      No  Sun  Dinner           3
2        21.01     3.50    Male      No  Sun  Dinner           3
3        23.68     3.31    Male      No  Sun  Dinner           2
4        24.59     3.61  Female      No  Sun  Dinner           4


- Renombramos los valores de las variables categoricas

In [5]:
df = df.replace({
    "Genero": {
        "Female": "Mujer",
        "Male": "Hombre"
    },
    "Dia":{
        "Thur": "Miercoles",
        "Fri": "Viernes",       
        "Sat": "Sabado",
        "Sun": "Domingo",
    },
    "Fumador": {
        "Yes": "Sí",
        "No": "No"
    },
    "Evento": {
        "Dinner": "Cena",
        "Lunch": "Almuerzo"
    }
})
print(df)

     Total Tiket  Propina  Genero Fumador        Dia Evento  Comensales
0          16.99     1.01   Mujer      No    Domingo   Cena           2
1          10.34     1.66  Hombre      No    Domingo   Cena           3
2          21.01     3.50  Hombre      No    Domingo   Cena           3
3          23.68     3.31  Hombre      No    Domingo   Cena           2
4          24.59     3.61   Mujer      No    Domingo   Cena           4
..           ...      ...     ...     ...        ...    ...         ...
239        29.03     5.92  Hombre      No     Sabado   Cena           3
240        27.18     2.00   Mujer      Sí     Sabado   Cena           2
241        22.67     2.00  Hombre      Sí     Sabado   Cena           2
242        17.82     1.75  Hombre      No     Sabado   Cena           2
243        18.78     3.00   Mujer      No  Miercoles   Cena           2

[244 rows x 7 columns]


- inspeccionamo el df para averiguar tipos de datos, tamaño, etc

In [6]:
print(
    f"Numero de filas y columnas:{df.shape}\n"
    f"Numero total de elementos : {df.size}\n "
    )
print(df.dtypes.to_frame(name="Tipos de datos"))

Numero de filas y columnas:(244, 7)
Numero total de elementos : 1708
 
            Tipos de datos
Total Tiket        float64
Propina            float64
Genero              object
Fumador             object
Dia                 object
Evento              object
Comensales           int64


- Generamos una nueva tabla para identificar el tipo de variable ( Cualitativa o cuantitativa), como complemento a la informacion que ya tenemos.

In [7]:
tabla_tipos = pd.DataFrame({
    "Nombre": df.columns,
    "Tipo": [
        "Cuantitativa",
        "Cuantitativa",
        "Cualitativa",
        "Cualtitativa",
        "Cualitativa",
        "Cualitativa",
        "Cuantitativa"
    ]
})
print(tabla_tipos.to_string(index=False))

     Nombre         Tipo
Total Tiket Cuantitativa
    Propina Cuantitativa
     Genero  Cualitativa
    Fumador Cualtitativa
        Dia  Cualitativa
     Evento  Cualitativa
 Comensales Cuantitativa


- Realizamos una inspeccion para averiguar la *estrucrura* completa de nuestra data y detectar valore nulos.

In [8]:
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 244 entries, 0 to 243
Data columns (total 7 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   Total Tiket  244 non-null    float64
 1   Propina      244 non-null    float64
 2   Genero       244 non-null    object 
 3   Fumador      244 non-null    object 
 4   Dia          244 non-null    object 
 5   Evento       244 non-null    object 
 6   Comensales   244 non-null    int64  
dtypes: float64(2), int64(1), object(4)
memory usage: 13.5+ KB
None


**no se evidencian valores nulos**

## 3.Estadisicas basica 
  - Realizamos una inspeccion para visualizar los valores estadistico principales para ambas columnas tanto numericas como categoricas.

In [17]:
tabla_basica = df.describe(include='all').rename(index={
    'count': 'Total',
    'unique':'Valor unicos',
    'top': 'Valor + frecuente',
    'freq' :'Valor + comun',
     'mean' :'Media',
     'std':'Desviacion',
     'min': 'Valor minimo',
     'max': 'Valor maximo'})

print(tabla_basica)

                   Total Tiket     Propina  Genero Fumador     Dia Evento  \
Total               244.000000  244.000000     244     244     244    244   
Valor unicos               NaN         NaN       2       2       4      2   
Valor + frecuente          NaN         NaN  Hombre      No  Sabado   Cena   
Valor + comun              NaN         NaN     157     151      87    176   
Media                19.785943    2.998279     NaN     NaN     NaN    NaN   
Desviacion            8.902412    1.383638     NaN     NaN     NaN    NaN   
Valor minimo          3.070000    1.000000     NaN     NaN     NaN    NaN   
25%                  13.347500    2.000000     NaN     NaN     NaN    NaN   
50%                  17.795000    2.900000     NaN     NaN     NaN    NaN   
75%                  24.127500    3.562500     NaN     NaN     NaN    NaN   
Valor maximo         50.810000   10.000000     NaN     NaN     NaN    NaN   

                   Comensales  
Total              244.000000  
Valor unico

Report rapido columnas numericas:
- Podemos sospechar desde un primer momentos  posibles *outliers*.
- Revisando los valores min y sobretodo los max de las variables: total_bill y tip, estan bastante alejado de los valores promedio. 
- Aun asi no podemos confirmarlo sin un analisis mas visual o estadistico, para poderlos identificar con mas precision.

Report rapido para columnas categoricas:
- unique --> detecta la cantidad de valores unicos.
- top --> valor categorico mas frecuente.
- freq--> frecuencia del valor mas frecuente.Ej ( sex: top/ Male y freq/157 y count/244 nos puede dar pistas)


- Especificamos los tipos object. Aunque el dataSet no es grande y no se especifica ahorro de memoria (13.5 Kb), será util para analisis categorico futuro y Machine Learning.

In [10]:
columnas = ['Genero','Fumador', 'Dia', 'Evento']
for c in columnas:
    df[c]=df[c].astype('category')
print(df.dtypes)

Total Tiket     float64
Propina         float64
Genero         category
Fumador        category
Dia            category
Evento         category
Comensales        int64
dtype: object


- realizamos una inspeccion para averiguar las ocurencias de cada valor unico en las variables categoricas y ver si esta balanceado.

In [11]:
for col in df.select_dtypes(include='category'):
    print(f"\n{'*'*20}")
    print(df[col].value_counts())



********************
Genero
Hombre    157
Mujer      87
Name: count, dtype: int64

********************
Fumador
No    151
Sí     93
Name: count, dtype: int64

********************
Dia
Sabado       87
Domingo      76
Miercoles    62
Viernes      19
Name: count, dtype: int64

********************
Evento
Cena        176
Almuerzo     68
Name: count, dtype: int64


- correlacion entre variables

In [15]:
corr_numeric = df.select_dtypes(include="number").corr(method='pearson')
print(corr_numeric)


             Total Tiket   Propina  Comensales
Total Tiket     1.000000  0.675734    0.598315
Propina         0.675734  1.000000    0.489299
Comensales      0.598315  0.489299    1.000000


Podemos observar rapidamente que hay correlacion moderada positiva entre propina/Total_tiket y algo ligeramente inferior entre propina/comensales. 
No podemos decir que esta correlacion implique causalidad todavia.

## 4. Limpieza 

- Confirmamos que no hayan valores nulos.

In [13]:
print(f"Valores nulos:\n{df.isna().sum()}")


Valores nulos:
Total Tiket    0
Propina        0
Genero         0
Fumador        0
Dia            0
Evento         0
Comensales     0
dtype: int64


- Confirmamos que no haya valores duplicados

In [14]:
print(f"Valores duplicados:\n{df.duplicated()}")

Valores duplicados:
0      False
1      False
2      False
3      False
4      False
       ...  
239    False
240    False
241    False
242    False
243    False
Length: 244, dtype: bool
