# Tareas a realizar
---
1. Cargar el *dataset tips* <https://raw.githubusercontent.com/mwaskom/seaborn-data/refs/heads/master/tips.csv> con Pandas 
2. Realizar una **exploracion estadistica descriptiva** de los datos con Panda
     - prueba
     - prueba
3. Limpieza de datos
   - Detectar valores nulos
   - Corregir valores nulos.
   - Corregir tipos de datos
   - Eliminar duplicados
   - Identificar Outliers y tratarlos
4. EDAS (Exploratory Data Analisys)
   - Univariante
   - Bivariante
   - Multivariante
5. Modelado
   - Probar *varios* modelos de Scikit Learn , para predecir la columna tip del dataset
   - Escalar las colu,nas numericas
   - Particionar los datos con *train_test_split*
   - Ver el mejor modelo

## 1. Cargar el dataset

- Copiamos los datos en formato csv y lo colocamos en un nuevo archivo en el directorio (tips.csv) 
- Importamos Pandas
- Leemos un primer muestro de 20 filas aleatoria, para visualizar el dataframe, sobretodo ver el Header.
  

In [47]:
import pandas as pd
df=pd.read_csv('tips.csv')
print(df.sample(n=20))

     total_bill   tip     sex smoker   day    time  size
187       30.46  2.00    Male    Yes   Sun  Dinner     5
197       43.11  5.00  Female    Yes  Thur   Lunch     4
195        7.56  1.44    Male     No  Thur   Lunch     2
233       10.77  1.47    Male     No   Sat  Dinner     2
55        19.49  3.51    Male     No   Sun  Dinner     2
48        28.55  2.05    Male     No   Sun  Dinner     3
102       44.30  2.50  Female    Yes   Sat  Dinner     3
42        13.94  3.06    Male     No   Sun  Dinner     2
185       20.69  5.00    Male     No   Sun  Dinner     5
172        7.25  5.15    Male    Yes   Sun  Dinner     2
125       29.80  4.20  Female     No  Thur   Lunch     6
184       40.55  3.00    Male    Yes   Sun  Dinner     2
144       16.43  2.30  Female     No  Thur   Lunch     2
221       13.42  3.48  Female    Yes   Fri   Lunch     2
99        12.46  1.50    Male     No   Fri  Dinner     2
124       12.48  2.52  Female     No  Thur   Lunch     2
3         23.68  3.31    Male  

- Renombramos columnas

In [55]:
df.columns= ['Total Tiket', 'Propina','Genero','Fumador','Dia','Evento','Comensales']
print(df.head())

   Total Tiket  Propina  Genero Fumador  Dia  Evento  Comensales
0        16.99     1.01  Female      No  Sun  Dinner           2
1        10.34     1.66    Male      No  Sun  Dinner           3
2        21.01     3.50    Male      No  Sun  Dinner           3
3        23.68     3.31    Male      No  Sun  Dinner           2
4        24.59     3.61  Female      No  Sun  Dinner           4


- Renombramos los valores de las variables categoricas

In [None]:
df = df.replace({
    "Genero": {
        "Female": "Mujer",
        "Male": "Hombre"
    },
    "Dia":{
        "Thur": "Miercoles",
        "Fri": "Viernes",       
        "Sat": "Sabado",
        "Sun": "Domingo",
    },
    "Fumador": {
        "Yes": "Sí",
        "No": "No"
    },
    "Evento": {
        "Dinner": "Cena",
        "Lunch": "Almuerzo"
    }
})
print(df)

     Total Tiket  Propina  Genero Fumador        Dia Evento  Comensales
0          16.99     1.01   Mujer      No    Domingo   Cena           2
1          10.34     1.66  Hombre      No    Domingo   Cena           3
2          21.01     3.50  Hombre      No    Domingo   Cena           3
3          23.68     3.31  Hombre      No    Domingo   Cena           2
4          24.59     3.61   Mujer      No    Domingo   Cena           4
..           ...      ...     ...     ...        ...    ...         ...
239        29.03     5.92  Hombre      No     Sabado   Cena           3
240        27.18     2.00   Mujer      Sí     Sabado   Cena           2
241        22.67     2.00  Hombre      Sí     Sabado   Cena           2
242        17.82     1.75  Hombre      No     Sabado   Cena           2
243        18.78     3.00   Mujer      No  Miercoles   Cena           2

[244 rows x 7 columns]


- inspeccionamo el df para averiguar tipos de datos, tamaño, etc

In [62]:
print(
    f"Numero de filas y columnas:{df.shape}\n"
    f"Numero total de elementos : {df.size}\n "
    )
print(df.dtypes.to_frame(name="Tipos de datos"))

Numero de filas y columnas:(244, 7)
Numero total de elementos : 1708
 
            Tipos de datos
Total Tiket        float64
Propina            float64
Genero              object
Fumador             object
Dia                 object
Evento              object
Comensales           int64


- Generamos una nueva tabla para identificar el tipo de variable ( Cualitativa o cuantitativa), como complemento a la informacion que ya tenemos.

In [63]:
tabla_tipos = pd.DataFrame({
    "Nombre": df.columns,
    "Tipo": [
        "Cuantitativa",
        "Cuantitativa",
        "Cualitativa",
        "Cualtitativa",
        "Cualitativa",
        "Cualitativa",
        "Cuantitativa"
    ]
})
print(tabla_tipos.to_string(index=False))

     Nombre         Tipo
Total Tiket Cuantitativa
    Propina Cuantitativa
     Genero  Cualitativa
    Fumador Cualtitativa
        Dia  Cualitativa
     Evento  Cualitativa
 Comensales Cuantitativa


- Realizamos una inspeccion para averiguar la *estrucrura* completa de nuestra data y detectar valore nulos.

In [64]:
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 244 entries, 0 to 243
Data columns (total 7 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   Total Tiket  244 non-null    float64
 1   Propina      244 non-null    float64
 2   Genero       244 non-null    object 
 3   Fumador      244 non-null    object 
 4   Dia          244 non-null    object 
 5   Evento       244 non-null    object 
 6   Comensales   244 non-null    int64  
dtypes: float64(2), int64(1), object(4)
memory usage: 13.5+ KB
None


**no se evidencian valores nulos**

## 2.Estadisicas basica 
  - Realizamos una inspeccion para visualizar los valores estadistico principales para ambas columnas tanto numericas como categoricas.

In [65]:
print(df.describe(include='all'))

        Total Tiket     Propina  Genero Fumador     Dia Evento  Comensales
count    244.000000  244.000000     244     244     244    244  244.000000
unique          NaN         NaN       2       2       4      2         NaN
top             NaN         NaN  Hombre      No  Sabado   Cena         NaN
freq            NaN         NaN     157     151      87    176         NaN
mean      19.785943    2.998279     NaN     NaN     NaN    NaN    2.569672
std        8.902412    1.383638     NaN     NaN     NaN    NaN    0.951100
min        3.070000    1.000000     NaN     NaN     NaN    NaN    1.000000
25%       13.347500    2.000000     NaN     NaN     NaN    NaN    2.000000
50%       17.795000    2.900000     NaN     NaN     NaN    NaN    2.000000
75%       24.127500    3.562500     NaN     NaN     NaN    NaN    3.000000
max       50.810000   10.000000     NaN     NaN     NaN    NaN    6.000000


Report rapido columnas numericas:
- Podemos sospechar desde un primer momentos  posibles *outliers*.
- Revisando los valores min y sobretodo los max de las variables: total_bill y tip, estan bastante alejado de los valores promedio. 
- Aun asi no podemos confirmarlo sin un analisis mas visual o estadistico, para poderlos identificar con mas precision.

Report rapido para columnas categoricas:
- unique --> detecta la cantidad de valores unicos.
- top --> valor categorico mas frecuente.
- freq--> frecuencia del valor mas frecuente.Ej ( sex: top/ Male y freq/157 y count/244 nos puede dar pistas)


- Especificamos los tipos object. Aunque el dataSet no es grande y no se especifica ahorro de memoria (13.5 Kb), será util para analisis categorico futuro y Machine Learning.

In [68]:
columnas = ['Genero','Fumador', 'Dia', 'Evento']
for c in columnas:
    df[c]=df[c].astype('category')
print(df.dtypes)

Total Tiket     float64
Propina         float64
Genero         category
Fumador        category
Dia            category
Evento         category
Comensales        int64
dtype: object


## 3. Limpieza 

- Confirmamos que no hayan valores nulos.

In [69]:
print(f"Valores nulos:\n{df.isna().sum()}")


Valores nulos:
Total Tiket    0
Propina        0
Genero         0
Fumador        0
Dia            0
Evento         0
Comensales     0
dtype: int64


- Confirmamos que no haya valores duplicados

In [54]:
print(f"Valores duplicados:\n{df.duplicated()}")

Valores duplicados:
0      False
1      False
2      False
3      False
4      False
       ...  
239    False
240    False
241    False
242    False
243    False
Length: 244, dtype: bool
