# Tarea 2: Manejo de datos con pandas

<img style="float: right; margin: 0px 0px 15px 15px;" src="https://pandas.pydata.org/static/img/pandas.svg" width="300px" height="300px" />

Resolver cada uno de los puntos en los espacios provistos.

Referencias:
- https://towardsdatascience.com/data-science-with-python-intro-to-loading-and-subsetting-data-with-pandas-9f26895ddd7f
- https://github.com/Ventsislav-Yordanov/Data-Science-Exercises
___

# Descripción de los datos

En los siguientes ejercicios usarás los datos del archivo "tips.csv", que contiene información de propinas.

Variables en las columnas:

* **total_bill**: **monto de la cuenta (dólares)**
* **tip**: **monto de la propina (dólares)**
* **sex**: **\[Female, Male\], género de quien paga la cuenta**
* **smoker**: **\[No, Yes\], si el grupo incluye o no fumadores**
* **day**: **\['Sun', 'Sat', 'Thur', 'Fri'\], día de la semana**
* **time**: **\[Dinner, Lunch\], momento aproximado del día**
* **size**: **número de personas en el grupo**

In [1]:
# Importar pandas
import pandas as pd

Importar los datos guardados en el archivo "tips.csv" como un DataFrame de pandas, cuyo nombre sea `tips_data`.

Luego utilizar el método `head()` de DataFrames para ver las primeras 5 filas de los datos.

In [11]:
# Importar los datos
tips_data = pd.read_csv("tips.csv") 
# Utilizar el método head() para ver las primeras 5 filas de los datos
print(tips_data.head())

   total_bill   tip     sex smoker  day    time  size
0       16.99  1.01  Female     No  Sun  Dinner     2
1       10.34  1.66    Male     No  Sun  Dinner     3
2       21.01  3.50    Male     No  Sun  Dinner     3
3       23.68  3.31    Male     No  Sun  Dinner     2
4       24.59  3.61  Female     No  Sun  Dinner     4


¿Cuántas filas y columnas tiene tu DataFrame? (atributo `shape`)

In [12]:
tips_data.shape

(244, 7)

# Análisis exploratorio de datos

Esta parte ya está resuelta, solo corre las celdas para ver los resultados.

In [13]:
def print_min_max(column):
    print("The min value for the column \"" + column + "\" is:",  tips_data[column].min())
    print("The max value for the column \"" + column + "\" is:",  tips_data[column].max())

In [14]:
print_min_max("tip")
print()
print_min_max("total_bill")
print()
print_min_max("size")

The min value for the column "tip" is: 1.0
The max value for the column "tip" is: 10.0

The min value for the column "total_bill" is: 3.07
The max value for the column "total_bill" is: 50.81

The min value for the column "size" is: 1
The max value for the column "size" is: 6


# Filtrado de datos

Ya vieron para que sirve el método `head()`: para imprimir solo las primeras 5 filas de su resultado. Es decir, sirve para no desplegar DataFrames muy largos. Asegúrese de utilizar este método si no quiere que se impriman DataFrames largos.

## 1

Obtener todos los registros en los cuales **la propina es igual a 10**.

In [26]:
import pandas as pd

# Cargar los datos desde el archivo "tips.csv"
tips_data = pd.read_csv("tips.csv")

# Filtrar los registros donde la propina es igual a 10
propina_igual_10 = tips_data.loc[tips_data['tip'] == 10]

# Mostrar los resultados
print(propina_igual_10)


     total_bill   tip   sex smoker  day    time  size
170       50.81  10.0  Male    Yes  Sat  Dinner     3


## 2

Obtener todos los registros donde **el número de personas (size) es igual a 5 o 6**. 

In [33]:
# Solución aquí

# Cargar los datos desde el archivo "tips.csv"
tips_data = pd.read_csv("tips.csv")

# Filtrar los registros de personas es igual a 5 o 6
# El ".isin" es un operador logico que es conocido como "o"

personas_5_o_6 = tips_data.loc[tips_data['size'].isin([5, 6])]

# Mostrar los resultados
print(personas_5_o_6)



     total_bill   tip     sex smoker   day    time  size
125       29.80  4.20  Female     No  Thur   Lunch     6
141       34.30  6.70    Male     No  Thur   Lunch     6
142       41.19  5.00    Male     No  Thur   Lunch     5
143       27.05  5.00  Female     No  Thur   Lunch     6
155       29.85  5.14  Female     No   Sun  Dinner     5
156       48.17  5.00    Male     No   Sun  Dinner     6
185       20.69  5.00    Male     No   Sun  Dinner     5
187       30.46  2.00    Male    Yes   Sun  Dinner     5
216       28.15  3.00    Male    Yes   Sat  Dinner     5


## 3

Obtener todos los registros donde **el grupo contenga fumadores**.

**En este ejemplo, se utiliza la función isin() para comprobar si el valor en la columna 'smoker' es igual a 'Yes' (fumadores). La función loc se utiliza para seleccionar las filas que cumplen con esta condición. El resultado se almacena en un nuevo DataFrame llamado fumadores, que contiene solo los registros donde el grupo contiene fumadores.**

In [43]:
# Solución aquí

# Cargar los datos desde el archivo "tips.csv"
tips_data = pd.read_csv("tips.csv")

# Filtrar los registros de personas fumadores


smokers = tips_data.loc[tips_data['smoker'].isin(["Yes"])]

# Mostrar los resultados
print(smokers)

     total_bill   tip     sex smoker  day    time  size
56        38.01  3.00    Male    Yes  Sat  Dinner     4
58        11.24  1.76    Male    Yes  Sat  Dinner     2
60        20.29  3.21    Male    Yes  Sat  Dinner     2
61        13.81  2.00    Male    Yes  Sat  Dinner     2
62        11.02  1.98    Male    Yes  Sat  Dinner     2
..          ...   ...     ...    ...  ...     ...   ...
234       15.53  3.00    Male    Yes  Sat  Dinner     2
236       12.60  1.00    Male    Yes  Sat  Dinner     2
237       32.83  1.17    Male    Yes  Sat  Dinner     2
240       27.18  2.00  Female    Yes  Sat  Dinner     2
241       22.67  2.00    Male    Yes  Sat  Dinner     2

[93 rows x 7 columns]


## 4

Obtener todos los registros donde **el grupo no contenga fumadores**.

**En este código, ~ se utiliza para negar la condición, es decir, seleccionar las filas donde el valor en la columna 'smoker' no es igual a 'Yes'. El resultado se almacena en un nuevo DataFrame llamado no_fumadores, que contiene solo los registros donde el grupo no contiene fumadores.**

In [44]:
import pandas as pd

# Cargar los datos desde el archivo "tips.csv"
tips_data = pd.read_csv("tips.csv")

# Filtrar los registros donde el grupo no contenga fumadores
no_smokers = tips_data.loc[~tips_data['smoker'].isin(['Yes'])]

# Mostrar los resultados
print(no_smokers)


     total_bill   tip     sex smoker   day    time  size
0         16.99  1.01  Female     No   Sun  Dinner     2
1         10.34  1.66    Male     No   Sun  Dinner     3
2         21.01  3.50    Male     No   Sun  Dinner     3
3         23.68  3.31    Male     No   Sun  Dinner     2
4         24.59  3.61  Female     No   Sun  Dinner     4
..          ...   ...     ...    ...   ...     ...   ...
235       10.07  1.25    Male     No   Sat  Dinner     2
238       35.83  4.67  Female     No   Sat  Dinner     3
239       29.03  5.92    Male     No   Sat  Dinner     3
242       17.82  1.75    Male     No   Sat  Dinner     2
243       18.78  3.00  Female     No  Thur  Dinner     2

[151 rows x 7 columns]


## 5

Obtener todos los registros donde **la propina sea igual a 5, 7 o 10**

In [45]:
# Solución aquí

# Cargar los datos desde el archivo "tips.csv"

tips_data = pd.read_csv("tips.csv")

# Filtrar los registros donde la propina es igual a 10
propina_5_7_10 = tips_data.loc[tips_data['tip'].isin([5, 7,10])]

# Mostrar los resultados
print(propina_5_7_10)

     total_bill   tip     sex smoker   day    time  size
11        35.26   5.0  Female     No   Sun  Dinner     4
39        31.27   5.0    Male     No   Sat  Dinner     3
46        22.23   5.0    Male     No   Sun  Dinner     2
73        25.28   5.0  Female    Yes   Sat  Dinner     2
83        32.68   5.0    Male    Yes  Thur   Lunch     2
142       41.19   5.0    Male     No  Thur   Lunch     5
143       27.05   5.0  Female     No  Thur   Lunch     6
156       48.17   5.0    Male     No   Sun  Dinner     6
170       50.81  10.0    Male    Yes   Sat  Dinner     3
185       20.69   5.0    Male     No   Sun  Dinner     5
197       43.11   5.0  Female    Yes  Thur   Lunch     4


## 6

Obtenga todos los registros donde **el día sea Sábado o Domingo**.

In [49]:
# Solución aquí

# Cargar los datos desde el archivo "tips.csv"
tips_data = pd.read_csv("tips.csv")

Fin_semana = tips_data.loc[tips_data['day'].isin(["Sat","Sun"])]

# Mostrar los resultados
print(Fin_semana)

     total_bill   tip     sex smoker  day    time  size
0         16.99  1.01  Female     No  Sun  Dinner     2
1         10.34  1.66    Male     No  Sun  Dinner     3
2         21.01  3.50    Male     No  Sun  Dinner     3
3         23.68  3.31    Male     No  Sun  Dinner     2
4         24.59  3.61  Female     No  Sun  Dinner     4
..          ...   ...     ...    ...  ...     ...   ...
238       35.83  4.67  Female     No  Sat  Dinner     3
239       29.03  5.92    Male     No  Sat  Dinner     3
240       27.18  2.00  Female    Yes  Sat  Dinner     2
241       22.67  2.00    Male    Yes  Sat  Dinner     2
242       17.82  1.75    Male     No  Sat  Dinner     2

[163 rows x 7 columns]


## 7

Obtenga todos los registros donde **el número de personas sea mayor a 4** y **quien pague la cuenta sea una mujer**.

**En este ejemplo, se utilizan condiciones booleanas para seleccionar las filas donde el número de personas (size) es mayor a 4 y el género (sex) es femenino. El operador & se utiliza para combinar ambas condiciones con la lógica "y". El resultado se almacena en un nuevo DataFrame llamado resultado, que contiene solo los registros que cumplen con ambas condiciones.**

In [52]:

# Cargar los datos desde el archivo "tips.csv"
tips_data = pd.read_csv("tips.csv")

# Filtrar los registros con las condiciones especificadas
condiciones = (tips_data['size'] > 4) & (tips_data['sex'] == 'Female')
resultado = tips_data.loc[condiciones]

# Mostrar los resultados
print(resultado)


     total_bill   tip     sex smoker   day    time  size
125       29.80  4.20  Female     No  Thur   Lunch     6
143       27.05  5.00  Female     No  Thur   Lunch     6
155       29.85  5.14  Female     No   Sun  Dinner     5


## 8

Obtenga todos los registros donde **la cuenta total sea mayor a 40** y **la propina sea mayor que 5**

In [53]:
# Solución aquí

# Cargar los datos desde el archivo "tips.csv"
tips_data = pd.read_csv("tips.csv")

# Filtrar los registros con las condiciones especificadas
condicion2 = (tips_data['total_bill'] > 40) & (tips_data['tip'] >5)
resultado = tips_data.loc[condicion2]

# Mostrar los resultados
print(resultado)

     total_bill    tip   sex smoker  day    time  size
59        48.27   6.73  Male     No  Sat  Dinner     4
170       50.81  10.00  Male    Yes  Sat  Dinner     3
212       48.33   9.00  Male     No  Sat  Dinner     4


## 9

Obtener todos los registros donde el **número de personas sea mayor que 4** o **el momento de asistencia sea una cena**

In [54]:
# Solución aquí

# Cargar los datos desde el archivo "tips.csv"
tips_data = pd.read_csv("tips.csv")

# Filtrar los registros con las condiciones especificadas
condicion3 = (tips_data['size'] > 4) & (tips_data['time'] == "Dinner")
resultado = tips_data.loc[condicion3]

# Mostrar los resultados
print(resultado)

     total_bill   tip     sex smoker  day    time  size
155       29.85  5.14  Female     No  Sun  Dinner     5
156       48.17  5.00    Male     No  Sun  Dinner     6
185       20.69  5.00    Male     No  Sun  Dinner     5
187       30.46  2.00    Male    Yes  Sun  Dinner     5
216       28.15  3.00    Male    Yes  Sat  Dinner     5


## 10

Obtener todos los registros donde **no hayan fumadores**, la **cuenta total sea mayor a 30**, y **el día sea jueves o viernes**.

In [63]:
import pandas as pd

# Cargar los datos desde el archivo "tips.csv"
tips_data = pd.read_csv("tips.csv")

# Filtrar los registros con las condiciones especificadas
condicion5 = (~tips_data['smoker'].isin(['Yes'])) & (tips_data['total_bill'] > 30) & (tips_data['day'].isin(['Thu', 'Fri']))
resultado = tips_data.loc[condicion5]

# Mostrar los resultados
print(resultado)


Empty DataFrame
Columns: [total_bill, tip, sex, smoker, day, time, size]
Index: []


## 11

Obtener todos los registros donde **el día sea viernes o sábado**, el **momento de asistencia sea para la comida**, y el **número de personas sea menor a 4**.

In [69]:
# Solución aquí

# Cargar los datos desde el archivo "tips.csv"
tips_data = pd.read_csv("tips.csv")

# Filtrar los registros con las condiciones especificadas
condicion11 = (tips_data['day'].isin(['Fri', 'Sat'])) & (tips_data['time'] == 'Lunch') & (tips_data['size'] < 4)
              
resultado = tips_data.loc[condicion11]

# Mostrar los resultados
print(resultado)


     total_bill   tip     sex smoker  day   time  size
220       12.16  2.20    Male    Yes  Fri  Lunch     2
221       13.42  3.48  Female    Yes  Fri  Lunch     2
222        8.58  1.92    Male    Yes  Fri  Lunch     1
223       15.98  3.00  Female     No  Fri  Lunch     3
224       13.42  1.58    Male    Yes  Fri  Lunch     2
225       16.27  2.50  Female    Yes  Fri  Lunch     2
226       10.09  2.00  Female    Yes  Fri  Lunch     2


## 12

<!-- Obtener todos los registros donde -->

el **día sea viernes**, el **número de personas sea menor a 3**, y **quien pague la cuenta sea una mujer**

o

el **día sea domingo**, el **número de personas sea mayor a 4**, y **quien pague la cuenta sea un hombre**.

In [74]:
# Solución aquí

# Cargar los datos desde el archivo "tips.csv"
tips_data = pd.read_csv("tips.csv")

# Filtrar los registros con las condiciones especificadas
opcion1 = (tips_data['size'] < 3) & (tips_data['sex'] == 'Female') 
opcion2 = (tips_data['day'] == 'Sun') & (tips_data['size'] > 4) & (tips_data['sex'] == 'Male') 
              
resultado = tips_data.loc[opcion1 | opcion2]

# Mostrar los resultados
print(resultado)



     total_bill   tip     sex smoker   day    time  size
0         16.99  1.01  Female     No   Sun  Dinner     2
14        14.83  3.02  Female     No   Sun  Dinner     2
21        20.29  2.75  Female     No   Sat  Dinner     2
22        15.77  2.23  Female     No   Sat  Dinner     2
29        19.65  3.00  Female     No   Sat  Dinner     2
..          ...   ...     ...    ...   ...     ...   ...
225       16.27  2.50  Female    Yes   Fri   Lunch     2
226       10.09  2.00  Female    Yes   Fri   Lunch     2
229       22.12  2.88  Female    Yes   Sat  Dinner     2
240       27.18  2.00  Female    Yes   Sat  Dinner     2
243       18.78  3.00  Female     No  Thur  Dinner     2

[64 rows x 7 columns]


En este ejemplo, se utilizan condiciones booleanas para cada uno de los escenarios especificados. El operador & se utiliza para combinar condiciones dentro de cada escenario, y el operador | se utiliza para combinar ambos escenarios con la lógica "o". El resultado se almacena en un nuevo DataFrame llamado resultado, que contiene solo los registros que cumplen con al menos una de las condiciones especificadas.

<script>
  $(document).ready(function(){
    $('div.prompt').hide();
    $('div.back-to-top').hide();
    $('nav#menubar').hide();
    $('.breadcrumb').hide();
    $('.hidden-print').hide();
  });
</script>

<footer id="attribution" style="float:right; color:#808080; background:#fff;">
Created with Jupyter by Carlos Kelly.
</footer>