# Introducción a Pandas

#Instalación y carga de librerías
#Hay que tener instalado pandas y seaborn (que incluye el dataset iris):
!pip install pandas seaborn

# 1. Importación de librerias necesarias 

<div style="text-align:center;">
  <a href="https://pandas.pydata.org/">
    <img src="https://upload.wikimedia.org/wikipedia/commons/thumb/e/ed/Pandas_logo.svg/512px-Pandas_logo.svg.png" style="width:400px; display:inline-block; margin-right:20px;">
  </a>
  <a href="https://seaborn.pydata.org/">
    <img src="https://avatars.githubusercontent.com/u/22799945?s=280&v=4" style="width:200px; display:inline-block;">
  </a>
</div>


In [3]:
#Importación de librerias
import pandas as pd
import seaborn as sns

# 2. Carga de datos

Iris es un famoso conjunto de datos utilizado comúnmente en estadística, aprendizaje automático y análisis de datos. Fue introducido por el botánico Edgar Anderson en 1936 y contiene información sobre tres especies de iris (Iris setosa, Iris versicolor e Iris virginica), con 150 muestras en total. Cada muestra tiene 4 características o atributos:

1. Longitud del sépalo.
2. Ancho del sépalo.
3. Longitud del pétalo.
4. Ancho del pétalo.

<table>
  <tr>
    <td style="text-align:center;">
      <strong>Iris Setosa</strong><br>
      <img src="https://upload.wikimedia.org/wikipedia/commons/thumb/5/56/Kosaciec_szczecinkowaty_Iris_setosa.jpg/220px-Kosaciec_szczecinkowaty_Iris_setosa.jpg" style="width:150px;">
    </td>
    <td style="text-align:center;">
      <strong>Iris Versicolor</strong><br>
      <img src="https://upload.wikimedia.org/wikipedia/commons/thumb/4/41/Iris_versicolor_3.jpg/220px-Iris_versicolor_3.jpg" style="width:250px;">
    </td>
    <td style="text-align:center;">
      <strong>Iris Virginica</strong><br>
      <img src="https://upload.wikimedia.org/wikipedia/commons/thumb/9/9f/Iris_virginica.jpg/220px-Iris_virginica.jpg" style="width:250px;">
    </td>
  </tr>
</table>

   
El conjunto de datos es popular por ser un ejemplo accesible y bien estructurado para probar y aprender técnicas de clasificación, regresión y análisis de datos. A menudo se usa como referencia en tutoriales de aprendizaje automático, ya que es lo suficientemente pequeño para manipular y permite experimentar con distintos algoritmos de clasificación.

In [5]:
#Cargar dataset de iris
# Cargar el dataset
iris = sns.load_dataset("iris")

# Convertir a pandas DataFrame (aunque seaborn ya lo carga como tal)
df = pd.DataFrame(iris)

# Mostrar las primeras filas del DataFrame
print(df.head())

   sepal_length  sepal_width  petal_length  petal_width species
0           5.1          3.5           1.4          0.2  setosa
1           4.9          3.0           1.4          0.2  setosa
2           4.7          3.2           1.3          0.2  setosa
3           4.6          3.1           1.5          0.2  setosa
4           5.0          3.6           1.4          0.2  setosa


# 3. Exploración básica del dataset
- Dimensiones del dataset: Número de filas y columnas.
- Información sobre los tipos de datos: Revisar qué tipo de datos contiene cada columna.
- Descripción estadística básica: Estadísticas resumidas de las columnas numéricas.

In [9]:
# Dimensiones del dataset
print(df.shape)
print("___________________________________________________________")
print("___________________________________________________________")
# Información de los tipos de datos
print(df.info())
print("___________________________________________________________")
print("___________________________________________________________")
# Estadísticas descriptivas básicas
print(df.describe())

(150, 5)
___________________________________________________________
___________________________________________________________
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   sepal_length  150 non-null    float64
 1   sepal_width   150 non-null    float64
 2   petal_length  150 non-null    float64
 3   petal_width   150 non-null    float64
 4   species       150 non-null    object 
dtypes: float64(4), object(1)
memory usage: 6.0+ KB
None
___________________________________________________________
___________________________________________________________
       sepal_length  sepal_width  petal_length  petal_width
count    150.000000   150.000000    150.000000   150.000000
mean       5.843333     3.057333      3.758000     1.199333
std        0.828066     0.435866      1.765298     0.762238
min        4.300000     2.000000      1.000000   

# 4. Acceder a columnas específicas
Podemos acceder a una columna específica de la siguiente manera:

In [10]:
# Acceder a la columna 'species'
print(df['species'].head())

0    setosa
1    setosa
2    setosa
3    setosa
4    setosa
Name: species, dtype: object


In [11]:
# Seleccionar varias columnas
print(df[['sepal_length', 'species']].head())

   sepal_length species
0           5.1  setosa
1           4.9  setosa
2           4.7  setosa
3           4.6  setosa
4           5.0  setosa


# 5. Filtrar filas del dataset
Filtrar el dataset en función de una condición. Por ejemplo, seleccionemos todas las filas donde la longitud del sépalo es mayor a 5.0.

In [12]:
# Filtrar filas
filtered_df = df[df['sepal_length'] > 5.0]
print(filtered_df.head())

    sepal_length  sepal_width  petal_length  petal_width species
0            5.1          3.5           1.4          0.2  setosa
5            5.4          3.9           1.7          0.4  setosa
10           5.4          3.7           1.5          0.2  setosa
14           5.8          4.0           1.2          0.2  setosa
15           5.7          4.4           1.5          0.4  setosa


# 6. Operaciones básicas: agregar nuevas columnas
Podemos crear nuevas columnas basadas en operaciones sobre las columnas existentes.

In [13]:
# Crear una nueva columna 'sepal_ratio' que es la relación entre la longitud y el ancho del sépalo
df['sepal_ratio'] = df['sepal_length'] / df['sepal_width']
print(df.head())

   sepal_length  sepal_width  petal_length  petal_width species  sepal_ratio
0           5.1          3.5           1.4          0.2  setosa     1.457143
1           4.9          3.0           1.4          0.2  setosa     1.633333
2           4.7          3.2           1.3          0.2  setosa     1.468750
3           4.6          3.1           1.5          0.2  setosa     1.483871
4           5.0          3.6           1.4          0.2  setosa     1.388889


# <span style="color:red">Actividad Práctica con *pandas* (usando `tips` de Seaborn)</span>

En esta actividad explorarás el conjunto de datos **tips** (propinas en un restaurante). Este dataset contiene información sobre:

- **total_bill:** Monto total de la cuenta (en dólares).
- **tip:** Propina que se deja (en dólares).
- **sex:** Género de la persona que pagó la cuenta (`Male` o `Female`).
- **smoker:** Indica si en la mesa había fumadores (`Yes`) o no (`No`).
- **day:** Día de la semana en que se registró la cuenta (`Thur`, `Fri`, `Sat`, `Sun`).
- **time:** Momento del día en que ocurrió la comida (`Lunch` o `Dinner`).
- **size:** Número de personas sentadas en la mesa.
---
## Instrucciones
1. **Carga de librerías y dataset**  
   - Importa `pandas` y `seaborn`.
   - Carga el dataset **tips** usando `seaborn.load_dataset("tips")` y conviértelo a un DataFrame de `pandas`.

2. **Exploración inicial**  
   - Muestra las **primeras 5 filas** del DataFrame (usa `head()`).
   - Imprime las **dimensiones** (filas y columnas) del DataFrame.
   - Muestra la **información** (tipos de datos, valores nulos, etc.) usando `info()`.
   - Obtén **estadísticas descriptivas** de las columnas numéricas con `describe()`.

3. **Selección y filtrado de datos**  
   - Selecciona la columna `time` y muestra las primeras 10 filas de esta columna.
   - Filtra y muestra **solo** las filas donde `total_bill` sea **mayor** a 20.


4. **Creación de columnas**  
   - Crea una columna llamada `tip_percentage` que sea el resultado de `(tip / total_bill) * 100`.
   - Muestra las primeras 5 filas para verificar la nueva columna.

5. **Agrupación de datos**  
   - Agrupa el DataFrame por la columna `day` y calcula el **promedio** de `total_bill`, `tip` y `tip_percentage`.
   - Imprime los resultados.

6. **Conclusiones (breve resumen)**  
   - Contesta de manera breve:  
     - ¿En qué día se registró, en promedio, la mayor propina (`tip`)?  
     - ¿Qué pasa con la columna `tip_percentage`? ¿Hay algún día que destaque por tener un porcentaje de propina más alto?  
     - ¿Qué observas al filtrar por `total_bill > 20`?