# **Introducción a los DataFrames**

## **Inspeccionando un DataFrame**  

Cuando trabajas con un nuevo **DataFrame**, lo primero que debes hacer es explorarlo para entender qué información contiene. Para ello, existen varios métodos y atributos útiles en Pandas:  

- **`.head()`**: Devuelve las primeras filas del DataFrame (la "cabeza" del DataFrame).  
- **`.info()`**: Muestra información sobre cada columna, como el tipo de dato y la cantidad de valores faltantes.  
- **`.shape`**: Retorna el número de filas y columnas del DataFrame.  
- **`.describe()`**: Calcula estadísticas resumidas para cada columna.  

El **DataFrame `homelessness`** contiene estimaciones sobre la población sin hogar en cada estado de EE. UU. en el año 2018.  

- La columna **`individual`** representa el número de personas sin hogar que no forman parte de una familia con niños.  
- La columna **`family_members`** representa el número de personas sin hogar que sí forman parte de una familia con niños.  
- La columna **`state_pop`** representa la población total del estado.  

In [11]:
import pandas as pd

In [12]:
homelessness = (pd
    .read_csv('../../datasets/homelessness.csv')
)

Imprimir el encabezado de los datos `homelessness`.

In [15]:
(
    homelessness
    .head()
)

Unnamed: 0,region,state,individuals,family_members,state_pop
0,East South Central,Alabama,2570.0,864.0,4887681
1,Pacific,Alaska,1434.0,582.0,735139
2,Mountain,Arizona,7259.0,2606.0,7158024
3,West South Central,Arkansas,2280.0,432.0,3009733
4,Pacific,California,109008.0,20964.0,39461588


### **Imprimir el número de filas y columnas en `homelessness`**  

Imprime información sobre los tipos de columnas y los valores faltantes en el DataFrame `homelessness`.  

In [14]:
( 
    homelessness
    .info()
)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 51 entries, 0 to 50
Data columns (total 5 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   region          51 non-null     object 
 1   state           51 non-null     object 
 2   individuals     51 non-null     float64
 3   family_members  51 non-null     float64
 4   state_pop       51 non-null     int64  
dtypes: float64(2), int64(1), object(2)
memory usage: 2.1+ KB


Muestra la cantidad de filas y columnas en el DataFrame `homelessness`.  

In [16]:
(
    homelessness
    .shape
)

(51, 5)

### **Imprimir estadísticas resumidas del DataFrame `homelessness`**  

Muestra algunas estadísticas descriptivas que resumen los datos en el DataFrame `homelessness`.  

In [17]:

(
    homelessness
    .describe()
)


Unnamed: 0,individuals,family_members,state_pop
count,51.0,51.0,51.0
mean,7225.784314,3504.882353,6405637.0
std,15991.025083,7805.411811,7327258.0
min,434.0,75.0,577601.0
25%,1446.5,592.0,1777414.0
50%,3082.0,1482.0,4461153.0
75%,6781.5,3196.0,7340946.0
max,109008.0,52070.0,39461590.0


## **Partes de un DataFrame**  

Para comprender mejor los objetos **DataFrame**, es útil saber que están compuestos por tres elementos principales, almacenados como atributos:  

- **`.values`**: Un array bidimensional de NumPy que contiene los valores.  
- **`.columns`**: Un índice de columnas que almacena los nombres de las columnas.  
- **`.index`**: Un índice para las filas, que puede ser una numeración de filas o nombres de filas.  

Por lo general, puedes pensar en los **índices** como una lista de cadenas o números, aunque el tipo de dato **Index de Pandas** permite opciones más avanzadas. (Estos conceptos se explicarán más adelante en el curso).  

### **Explorar los atributos de `homelessness`**  

1. **Imprimir un array bidimensional de NumPy** con los valores en `homelessness`.  
2. **Imprimir los nombres de las columnas** en `homelessness`.  
3. **Imprimir el índice** del DataFrame `homelessness`.  

In [20]:
(
    homelessness
    .values
)


array([['East South Central', 'Alabama', 2570.0, 864.0, 4887681],
       ['Pacific', 'Alaska', 1434.0, 582.0, 735139],
       ['Mountain', 'Arizona', 7259.0, 2606.0, 7158024],
       ['West South Central', 'Arkansas', 2280.0, 432.0, 3009733],
       ['Pacific', 'California', 109008.0, 20964.0, 39461588],
       ['Mountain', 'Colorado', 7607.0, 3250.0, 5691287],
       ['New England', 'Connecticut', 2280.0, 1696.0, 3571520],
       ['South Atlantic', 'Delaware', 708.0, 374.0, 965479],
       ['South Atlantic', 'District of Columbia', 3770.0, 3134.0, 701547],
       ['South Atlantic', 'Florida', 21443.0, 9587.0, 21244317],
       ['South Atlantic', 'Georgia', 6943.0, 2556.0, 10511131],
       ['Pacific', 'Hawaii', 4131.0, 2399.0, 1420593],
       ['Mountain', 'Idaho', 1297.0, 715.0, 1750536],
       ['East North Central', 'Illinois', 6752.0, 3891.0, 12723071],
       ['East North Central', 'Indiana', 3776.0, 1482.0, 6695497],
       ['West North Central', 'Iowa', 1711.0, 1038.0, 3148618]

In [21]:
(
    homelessness
    .columns
)


Index(['region', 'state', 'individuals', 'family_members', 'state_pop'], dtype='object')

In [22]:
(
    homelessness
    .index
)

RangeIndex(start=0, stop=51, step=1)

# **Ordenamiento y filtrado**

## **Ordenar filas**

Encontrar información relevante en un **DataFrame** suele ser más fácil si cambiamos el orden de las filas. Puedes ordenarlas utilizando el método `.sort_values()`, pasando el nombre de la columna como argumento.  

En casos donde varias filas tienen el mismo valor en la columna de ordenamiento (situación común en variables categóricas), puedes **desempatar** ordenando por otra columna adicional. Para ello, simplemente pasa una lista de nombres de columnas a `.sort_values()`.  

| Ordenar por… | Sintaxis |
| --- | --- |
| Una columna | `df.sort_values("breed")` |
| Varias columnas | `df.sort_values(["breed", "weight_kg"])` |

Combinando `.sort_values()` con `.head()`, puedes responder preguntas del tipo:  
**"¿Cuáles son los principales casos en los que…?"**  


### **Ordenar `homelessness` por el número de personas sin hogar**

1. Ordena el DataFrame `homelessness` por el número de personas sin hogar (`individual`), de menor a mayor, y guarda el resultado en `homelessness_ind`.  
2. Imprime las primeras filas del DataFrame ordenado utilizando `.head()`.  

In [25]:
homelessness_ind = (
    homelessness
    .sort_values('individuals')
)

print(homelessness_ind.head())

Unnamed: 0,region,state,individuals,family_members,state_pop
50,Mountain,Wyoming,434.0,205.0,577601
34,West North Central,North Dakota,467.0,75.0,758080
7,South Atlantic,Delaware,708.0,374.0,965479
39,New England,Rhode Island,747.0,354.0,1058287
45,New England,Vermont,780.0,511.0,624358


### **Ordenar `homelessness` por el número de miembros de familias sin hogar**

1. Ordena el DataFrame `homelessness` por el número de **miembros de familias sin hogar** (`family_members`) en **orden descendente** y guarda el resultado en `homelessness_fam`.  
2. Imprime las primeras filas del DataFrame ordenado utilizando `.head()`.  

In [27]:
homelessness_fam = (
    homelessness
    .sort_values(
        'family_members', 
        ascending=False
    )
)

print(homelessness_fam.head())

Unnamed: 0,region,state,individuals,family_members,state_pop
32,Mid-Atlantic,New York,39827.0,52070.0,19530351
4,Pacific,California,109008.0,20964.0,39461588
21,New England,Massachusetts,6811.0,13257.0,6882635
9,South Atlantic,Florida,21443.0,9587.0,21244317
43,West South Central,Texas,19199.0,6111.0,28628666


### **Ordenar `homelessness` por región y número de miembros de familias sin hogar**

1. Ordena el DataFrame `homelessness` primero por **región** en **orden ascendente**, y luego por el número de **miembros de familias sin hogar** (`family_members`) en **orden descendente**.  
2. Guarda el resultado en `homelessness_reg_fam`.  
3. Imprime las primeras filas del DataFrame ordenado utilizando `.head()`.  

In [28]:
homelessness_reg_fam = (
    homelessness
    .sort_values(
        ['region', 'family_members'], 
        ascending=[True, False]
    )
)

print(homelessness_reg_fam.head())

                region      state  individuals  family_members  state_pop
13  East North Central   Illinois       6752.0          3891.0   12723071
35  East North Central       Ohio       6929.0          3320.0   11676341
22  East North Central   Michigan       5209.0          3142.0    9984072
49  East North Central  Wisconsin       2740.0          2167.0    5807406
14  East North Central    Indiana       3776.0          1482.0    6695497


Aquí tienes la traducción en formato Markdown:

# **Filtrado de columnas**

Al trabajar con datos, es posible que no necesites todas las variables de tu conjunto de datos. Puedes utilizar corchetes (`[]`) para seleccionar únicamente las columnas que te interesan, en el orden que prefieras.  

Para seleccionar solo la columna `"col_a"` del DataFrame `df`, usa:  

```python
df["col_a"]

Para seleccionar las columnas "col_a" y "col_b" de df, usa:

df[["col_a", "col_b"]]

### **Seleccionar la columna `individuals` del DataFrame `homelessness`**

1. Crea un nuevo DataFrame llamado `individuals` que contenga solo la columna `individuals` del DataFrame `homelessness`.  
2. Imprime las primeras filas del resultado utilizando `.head()`.  

In [29]:
individuals = (
    homelessness[['individuals']]
)

print(individuals.head())

   individuals
0       2570.0
1       1434.0
2       7259.0
3       2280.0
4     109008.0


### **Seleccionar las columnas `state` y `family_members` del DataFrame `homelessness`**

1. Crea un nuevo DataFrame llamado `state_fam` que contenga únicamente las columnas `state` y `family_members` del DataFrame `homelessness`, en ese orden.  
2. Imprime las primeras filas del resultado utilizando `.head()`.  

In [30]:
state_fam = (
    homelessness[['state', 'family_members']]
)

print(state_fam.head())

        state  family_members
0     Alabama           864.0
1      Alaska           582.0
2     Arizona          2606.0
3    Arkansas           432.0
4  California         20964.0


### **Seleccionar las columnas `individuals` y `state` del DataFrame `homelessness`**

1. Crea un nuevo DataFrame llamado `ind_state` que contenga únicamente las columnas `individuals` y `state` del DataFrame `homelessness`, en ese orden.  
2. Imprime las primeras filas del resultado utilizando `.head()`.  

In [31]:
ind_state = (
    homelessness[
        [
            'individuals', 
            'state'
        ]
    ]
)

print(ind_state.head())

   individuals       state
0       2570.0     Alabama
1       1434.0      Alaska
2       7259.0     Arizona
3       2280.0    Arkansas
4     109008.0  California


## **Filtrado de filas (Subsetting rows)**  

Una gran parte de la ciencia de datos consiste en identificar qué partes del conjunto de datos son **interesantes**. Una de las técnicas más simples para esto es encontrar un **subconjunto de filas** que cumplan con ciertos criterios. A este proceso también se le conoce como **filtrado de filas** o **selección de filas**.  

Existen varias formas de filtrar un DataFrame, pero la más común es utilizar **operadores relacionales** para obtener valores `True` o `False` para cada fila, y luego pasar este resultado dentro de corchetes (`[]`).  

```python
dogs[dogs["height_cm"] > 60]
dogs[dogs["color"] == "tan"]

Si deseas filtrar múltiples condiciones al mismo tiempo, puedes utilizar el operador “bitwise and” (&):

dogs[(dogs["height_cm"] > 60) & (dogs["color"] == "tan")]



### **Filtrar `homelessness` para casos con más de 10,000 individuos sin hogar**  

1. Filtra el DataFrame `homelessness` para incluir solo los casos donde la columna `individuals` sea **mayor a 10,000**.  
2. Guarda el resultado en un nuevo DataFrame llamado `ind_gt_10k`.  
3. Imprime el resultado para visualizar los datos filtrados.  

In [32]:
ind_gt_10k = (
    homelessness[homelessness['individuals'] > 10000]
)

print(ind_gt_10k)

                region       state  individuals  family_members  state_pop
4              Pacific  California     109008.0         20964.0   39461588
9       South Atlantic     Florida      21443.0          9587.0   21244317
32        Mid-Atlantic    New York      39827.0         52070.0   19530351
37             Pacific      Oregon      11139.0          3337.0    4181886
43  West South Central       Texas      19199.0          6111.0   28628666
47             Pacific  Washington      16424.0          5880.0    7523869


### **Filtrar `homelessness` para la región del censo de EE. UU. `"Mountain"`**  

1. Filtra el DataFrame `homelessness` para incluir solo los casos donde la columna `region` sea `"Mountain"`.  
2. Guarda el resultado en un nuevo DataFrame llamado `mountain_reg`.  
3. Imprime el resultado para visualizar los datos filtrados.  

In [33]:
mountain_reg = (
    homelessness[
        homelessness['region'] == 'Mountain'
    ]
)

print(mountain_reg)

      region       state  individuals  family_members  state_pop
2   Mountain     Arizona       7259.0          2606.0    7158024
5   Mountain    Colorado       7607.0          3250.0    5691287
12  Mountain       Idaho       1297.0           715.0    1750536
26  Mountain     Montana        983.0           422.0    1060665
28  Mountain      Nevada       7058.0           486.0    3027341
31  Mountain  New Mexico       1949.0           602.0    2092741
44  Mountain        Utah       1904.0           972.0    3153550
50  Mountain     Wyoming        434.0           205.0     577601


### **Filtrar `homelessness` para casos con menos de 1,000 miembros de familia en la región "Pacific"**  

1. Filtra el DataFrame `homelessness` para incluir solo los casos donde:  
   - La columna `family_members` sea **menor a 1,000**.  
   - La columna `region` sea **"Pacific"**.  
2. Guarda el resultado en un nuevo DataFrame llamado `fam_lt_1k_pac`.  
3. Imprime el resultado para visualizar los datos filtrados.  

In [34]:
fam_lt_1k_pac = (
    homelessness[(homelessness['family_members'] < 1000) & (homelessness['region'] == 'Pacific')]
)

print(fam_lt_1k_pac)

    region   state  individuals  family_members  state_pop
1  Pacific  Alaska       1434.0           582.0     735139


## **Filtrado de filas por variables categóricas**

Filtrar datos basados en una variable categórica a menudo implica usar el operador **"or"** (`|`) para seleccionar filas de múltiples categorías. Sin embargo, esto puede volverse tedioso cuando deseas incluir varias categorías al mismo tiempo.  

Para simplificar el proceso, puedes utilizar el método `.isin()`, el cual permite aplicar una única condición en lugar de escribir varias condiciones separadas.  

```python
colors = ["brown", "black", "tan"]
condition = dogs["color"].isin(colors)
dogs[condition]

Esto seleccionará todas las filas donde la columna "color" tenga uno de los valores en la lista ["brown", "black", "tan"].

### **Filtrar `homelessness` para las regiones "South Atlantic" o "Mid-Atlantic"**  

1. Filtra el DataFrame `homelessness` para incluir solo los casos donde la columna `region` sea **"South Atlantic"** o **"Mid-Atlantic"**.  
2. Guarda el resultado en un nuevo DataFrame llamado `south_mid_atlantic`.  
3. Imprime el resultado para visualizar los datos filtrados.  

In [35]:
south_mid_atlantic = (
    homelessness[(homelessness['region'] == 'South Atlantic') | (homelessness['region'] == 'Mid-Atlantic')]
)

print(south_mid_atlantic)

            region                 state  individuals  family_members  \
7   South Atlantic              Delaware        708.0           374.0   
8   South Atlantic  District of Columbia       3770.0          3134.0   
9   South Atlantic               Florida      21443.0          9587.0   
10  South Atlantic               Georgia       6943.0          2556.0   
20  South Atlantic              Maryland       4914.0          2230.0   
30    Mid-Atlantic            New Jersey       6048.0          3350.0   
32    Mid-Atlantic              New York      39827.0         52070.0   
33  South Atlantic        North Carolina       6451.0          2817.0   
38    Mid-Atlantic          Pennsylvania       8163.0          5349.0   
40  South Atlantic        South Carolina       3082.0           851.0   
46  South Atlantic              Virginia       3928.0          2047.0   
48  South Atlantic         West Virginia       1021.0           222.0   

    state_pop  
7      965479  
8      701547  
9 

### **Filtrar `homelessness` para los estados de Mojave (`canu`)**  

1. Filtra el DataFrame `homelessness` para incluir solo los casos donde la columna `state` esté en la lista de **estados de Mojave**, denominada `canu`.  
2. Guarda el resultado en un nuevo DataFrame llamado `mojave_homelessness`.  
3. Imprime el resultado para visualizar los datos filtrados. 

In [36]:
canu = ["California", "Arizona", "Nevada", "Utah"]

mojave_homelessness = (
    homelessness[homelessness['state'].isin(canu)]
)

print(mojave_homelessness)

      region       state  individuals  family_members  state_pop
2   Mountain     Arizona       7259.0          2606.0    7158024
4    Pacific  California     109008.0         20964.0   39461588
28  Mountain      Nevada       7058.0           486.0    3027341
44  Mountain        Utah       1904.0           972.0    3153550


## **Agregar nuevas columnas**

No estás limitado a los datos que te proporcionan. En su lugar, puedes agregar nuevas columnas a un **DataFrame**. Este proceso tiene varios nombres, como **transformación**, **mutación** y **ingeniería de características (feature engineering)**.  

Puedes crear nuevas columnas desde cero, pero también es común derivarlas a partir de otras columnas, por ejemplo, sumando valores de diferentes columnas o cambiando sus unidades.  

### **Agregar nuevas columnas a `homelessness`**  

1. **Agregar una nueva columna llamada `total`**  
   - Contendrá la suma de las columnas `individuals` y `family_members`, representando el total de personas sin hogar en cada estado.  

2. **Agregar otra columna llamada `p_individuals`**  
   - Contendrá la proporción de personas sin hogar que son individuos, calculada como:  

In [37]:
homelessness['total'] = (
    homelessness['individuals'] 
    + homelessness['family_members']
)

homelessness['p_individuals'] = (
    homelessness['individuals'] / homelessness['total']
)

print(homelessness)

                region                 state  individuals  family_members  \
0   East South Central               Alabama       2570.0           864.0   
1              Pacific                Alaska       1434.0           582.0   
2             Mountain               Arizona       7259.0          2606.0   
3   West South Central              Arkansas       2280.0           432.0   
4              Pacific            California     109008.0         20964.0   
5             Mountain              Colorado       7607.0          3250.0   
6          New England           Connecticut       2280.0          1696.0   
7       South Atlantic              Delaware        708.0           374.0   
8       South Atlantic  District of Columbia       3770.0          3134.0   
9       South Atlantic               Florida      21443.0          9587.0   
10      South Atlantic               Georgia       6943.0          2556.0   
11             Pacific                Hawaii       4131.0          2399.0   

# **Combo-attack!**

You've seen the four most common types of data manipulation: sorting rows, subsetting columns, subsetting rows, and adding new columns. In a real-life data analysis, you can mix and match these four manipulations to answer a multitude of questions.

In this exercise, you'll answer the question, "Which state has the highest number of homeless individuals per 10,000 people in the state?" Combine your new `pandas` skills to find out.

- Add a column to `homelessness`, `indiv_per_10k`, containing the number of homeless individuals per ten thousand people in each state.
- Subset rows where `indiv_per_10k` is higher than `20`, assigning to `high_homelessness`.
- Sort `high_homelessness` by descending `indiv_per_10k`, assigning to `high_homelessness_srt`.
- Select only the `state` and `indiv_per_10k` columns of `high_homelessness_srt` and save as `result`. *Look at the `result`.*

In [33]:
# Create indiv_per_10k col as homeless individuals per 10k state pop
homelessness["indiv_per_10k"] = 10000 * homelessness["individuals"] / homelessness["state_pop"] 

# Subset rows for indiv_per_10k greater than 20
high_homelessness = homelessness[homelessness["indiv_per_10k"] > 20]

# Sort high_homelessness by descending indiv_per_10k
high_homelessness_srt = high_homelessness.sort_values("indiv_per_10k", ascending=False)

# From high_homelessness_srt, select the state and indiv_per_10k cols
result = high_homelessness_srt[["state", "indiv_per_10k"]]

# See the result
print(result)

                   state  indiv_per_10k
8   District of Columbia      53.738381
11                Hawaii      29.079406
4             California      27.623825
37                Oregon      26.636307
28                Nevada      23.314189
47            Washington      21.829195
32              New York      20.392363


# **Mean and median**

Summary statistics are exactly what they sound like - they summarize many numbers in one statistic. For example, mean, median, minimum, maximum, and standard deviation are summary statistics. Calculating summary statistics allows you to get a better sense of your data, even if there's a lot of it.

`sales` is available and `pandas` is loaded as `pd`.

- Explore your new DataFrame first by printing the first few rows of the `sales` DataFrame.
- Print information about the columns in `sales`.
- Print the mean of the `weekly_sales` column.
- Print the median of the `weekly_sales` column.

In [34]:
sales = pd.read_csv('walmart.csv')
sales.head()

Unnamed: 0,store,type,department,date,weekly_sales,is_holiday,temperature_c,fuel_price_usd_per_l,unemployment
0,1,A,1,2010-02-05,24924.5,False,5.727778,0.679451,8.106
1,1,A,1,2010-03-05,21827.9,False,8.055556,0.693452,8.106
2,1,A,1,2010-04-02,57258.43,False,16.816667,0.718284,7.808
3,1,A,1,2010-05-07,17413.94,False,22.527778,0.748928,7.808
4,1,A,1,2010-06-04,17558.09,False,27.05,0.714586,7.808


In [36]:
# Print the head of the sales DataFrame
print(sales.head())

# Print the info about the sales DataFrame
print(sales.info())

# Print the mean of weekly_sales
print(sales['weekly_sales'].mean())

# Print the median of weekly_sales
print(sales['weekly_sales'].median())

   store type  department        date  weekly_sales  is_holiday  \
0      1    A           1  2010-02-05      24924.50       False   
1      1    A           1  2010-03-05      21827.90       False   
2      1    A           1  2010-04-02      57258.43       False   
3      1    A           1  2010-05-07      17413.94       False   
4      1    A           1  2010-06-04      17558.09       False   

   temperature_c  fuel_price_usd_per_l  unemployment  
0       5.727778              0.679451         8.106  
1       8.055556              0.693452         8.106  
2      16.816667              0.718284         7.808  
3      22.527778              0.748928         7.808  
4      27.050000              0.714586         7.808  
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10774 entries, 0 to 10773
Data columns (total 9 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   store                 10774 non-null  int64  
 1   t

- Print the maximum of the `date` column.
- Print the minimum of the `date` column.

In [37]:
# Print the maximum of the date column
print(sales['date'].max())

# Print the minimum of the date column
print(sales['date'].min())

2012-10-26
2010-02-05


# **Efficient summaries**

While pandas and NumPy have tons of functions, sometimes, you may need a different function to summarize your data.

The `.agg()` method allows you to apply your own custom functions to a DataFrame, as well as apply functions to more than one column of a DataFrame at once, making your aggregations super-efficient. For example,

```
df['column'].agg(function)

```

In the custom function for this exercise, "IQR" is short for inter-quartile range, which is the 75th percentile minus the 25th percentile. It's an alternative to standard deviation that is helpful if your data contains outliers.

`sales` is available and `pandas` is loaded as `pd`.

- Use the custom `iqr` function defined for you along with `.agg()` to print the IQR of the `temperature_c` column of `sales`.
- Update the column selection to use the custom `iqr` function with `.agg()` to print the IQR of `temperature_c`, `fuel_price_usd_per_l`, and `unemployment`, in that order.
- Update the aggregation functions called by `.agg()`: include `iqr` and `np.median` in that order.

In [38]:
# A custom IQR function
def iqr(column):
    return column.quantile(0.75) - column.quantile(0.25)
    
# Print IQR of the temperature_c column
print(sales['temperature_c'].agg(iqr))

16.583333333333336


In [39]:
# A custom IQR function
def iqr(column):
    return column.quantile(0.75) - column.quantile(0.25)

# Update to print IQR of temperature_c, fuel_price_usd_per_l, & unemployment
print(sales[["temperature_c", 'fuel_price_usd_per_l', 'unemployment']].agg(iqr))

temperature_c           16.583333
fuel_price_usd_per_l     0.073176
unemployment             0.565000
dtype: float64


In [43]:
# Import NumPy and create custom IQR function
import numpy as np
def iqr(column):
    return column.quantile(0.75) - column.quantile(0.25)

# Update to print IQR and median of temperature_c, fuel_price_usd_per_l, & unemployment
print(sales[["temperature_c", "fuel_price_usd_per_l", "unemployment"]].agg([iqr, 'median']))

        temperature_c  fuel_price_usd_per_l  unemployment
iqr         16.583333              0.073176         0.565
median      16.966667              0.743381         8.099


# **Cumulative statistics**

Cumulative statistics can also be helpful in tracking summary statistics over time. In this exercise, you'll calculate the cumulative sum and cumulative max of a department's weekly sales, which will allow you to identify what the total sales were so far as well as what the highest weekly sales were so far.

A DataFrame called `sales_1_1` has been created for you, which contains the sales data for department 1 of store 1. `pandas` is loaded as `pd`.

- Sort the rows of `sales_1_1` by the `date` column in ascending order.
- Get the cumulative sum of `weekly_sales` and add it as a new column of `sales_1_1` called `cum_weekly_sales`.
- Get the cumulative maximum of `weekly_sales`, and add it as a column called `cum_max_sales`.
- Print the `date`, `weekly_sales`, `cum_weekly_sales`, and `cum_max_sales` columns.

In [61]:
sales_1_1 = sales[(sales['department'] == 1) & (sales['store'] == 1)]
sales_1_1

Unnamed: 0,store,type,department,date,weekly_sales,is_holiday,temperature_c,fuel_price_usd_per_l,unemployment
0,1,A,1,2010-02-05,24924.5,False,5.727778,0.679451,8.106
1,1,A,1,2010-03-05,21827.9,False,8.055556,0.693452,8.106
2,1,A,1,2010-04-02,57258.43,False,16.816667,0.718284,7.808
3,1,A,1,2010-05-07,17413.94,False,22.527778,0.748928,7.808
4,1,A,1,2010-06-04,17558.09,False,27.05,0.714586,7.808
5,1,A,1,2010-07-02,16333.14,False,27.172222,0.705076,7.787
6,1,A,1,2010-08-06,17508.41,False,30.644444,0.69398,7.787
7,1,A,1,2010-09-03,16241.78,False,27.338889,0.680772,7.787
8,1,A,1,2010-10-01,20094.19,False,22.161111,0.68764,7.838
9,1,A,1,2010-11-05,34238.88,False,14.855556,0.710359,7.838


In [62]:
# Sort sales_1_1 by date
sales_1_1 = sales_1_1.sort_values('date')

# Get the cumulative sum of weekly_sales, add as cum_weekly_sales col
sales_1_1['cum_weekly_sales'] = sales_1_1['weekly_sales'].cumsum()

# Get the cumulative max of weekly_sales, add as cum_max_sales col
sales_1_1['cum_max_sales'] = sales_1_1['weekly_sales'].cummax()

# See the columns you calculated
print(sales_1_1[["date", "weekly_sales", "cum_weekly_sales", "cum_max_sales"]])

          date  weekly_sales  cum_weekly_sales  cum_max_sales
0   2010-02-05      24924.50          24924.50       24924.50
1   2010-03-05      21827.90          46752.40       24924.50
2   2010-04-02      57258.43         104010.83       57258.43
3   2010-05-07      17413.94         121424.77       57258.43
4   2010-06-04      17558.09         138982.86       57258.43
5   2010-07-02      16333.14         155316.00       57258.43
6   2010-08-06      17508.41         172824.41       57258.43
7   2010-09-03      16241.78         189066.19       57258.43
8   2010-10-01      20094.19         209160.38       57258.43
9   2010-11-05      34238.88         243399.26       57258.43
10  2010-12-03      22517.56         265916.82       57258.43
11  2011-01-07      15984.24         281901.06       57258.43


# **Dropping duplicates**

Removing duplicates is an essential skill to get accurate counts because often, you don't want to count the same thing multiple times. In this exercise, you'll create some new DataFrames using unique values from `sales`.

`sales` is available and `pandas` is imported as `pd`.

- Remove rows of `sales` with duplicate pairs of `store` and `type` and save as `store_types` and print the head.
- Remove rows of `sales` with duplicate pairs of `store` and `department` and save as `store_depts` and print the head.
- Subset the rows that are holiday weeks using the `is_holiday` column, and drop the duplicate `date`s, saving as `holiday_dates`.
- Select the `date` column of `holiday_dates`, and print.

In [63]:
# Drop duplicate store/type combinations
store_types = sales.drop_duplicates(subset=['store', 'type'])
print(store_types.head())

# Drop duplicate store/department combinations
store_depts = sales.drop_duplicates(subset=['store', 'department'])
print(store_depts.head())

# Subset the rows where is_holiday is True and drop duplicate dates
holiday_dates = sales[sales['is_holiday']].drop_duplicates('date')

# Print date col of holiday_dates
print(holiday_dates)

      store type  department        date  weekly_sales  is_holiday  \
0         1    A           1  2010-02-05      24924.50       False   
901       2    A           1  2010-02-05      35034.06       False   
1798      4    A           1  2010-02-05      38724.42       False   
2699      6    A           1  2010-02-05      25619.00       False   
3593     10    B           1  2010-02-05      40212.84       False   

      temperature_c  fuel_price_usd_per_l  unemployment  
0          5.727778              0.679451         8.106  
901        4.550000              0.679451         8.324  
1798       6.533333              0.686319         8.623  
2699       4.683333              0.679451         7.259  
3593      12.411111              0.782478         9.765  
    store type  department        date  weekly_sales  is_holiday  \
0       1    A           1  2010-02-05      24924.50       False   
12      1    A           2  2010-02-05      50605.27       False   
24      1    A           3 

# **Counting categorical variables**

Counting is a great way to get an overview of your data and to spot curiosities that you might not notice otherwise. In this exercise, you'll count the number of each type of store and the number of each department number using the DataFrames you created in the previous exercise:

```
# Drop duplicate store/type combinations
store_types = sales.drop_duplicates(subset=["store", "type"])

# Drop duplicate store/department combinations
store_depts = sales.drop_duplicates(subset=["store", "department"])

```

The `store_types` and `store_depts` DataFrames you created in the last exercise are available, and `pandas`is imported as `pd`.

Count the number of stores of each store type in store_types.
Count the proportion of stores of each store type in store_types.
Count the number of different departments in store_depts, sorting the counts in descending order.
Count the proportion of different departments in store_depts, sorting the proportions in descending order.

In [66]:
store_types

Unnamed: 0,store,type,department,date,weekly_sales,is_holiday,temperature_c,fuel_price_usd_per_l,unemployment
0,1,A,1,2010-02-05,24924.5,False,5.727778,0.679451,8.106
901,2,A,1,2010-02-05,35034.06,False,4.55,0.679451,8.324
1798,4,A,1,2010-02-05,38724.42,False,6.533333,0.686319,8.623
2699,6,A,1,2010-02-05,25619.0,False,4.683333,0.679451,7.259
3593,10,B,1,2010-02-05,40212.84,False,12.411111,0.782478,9.765
4495,13,A,1,2010-02-05,46761.9,False,-0.261111,0.704283,8.316
5408,14,A,1,2010-02-05,32842.31,False,-2.605556,0.735455,8.992
6293,19,A,1,2010-02-05,21500.58,False,-6.133333,0.780365,8.35
7199,20,A,1,2010-02-05,46021.21,False,-3.377778,0.735455,8.187
8109,27,A,1,2010-02-05,32313.79,False,-2.672222,0.780365,8.237


In [67]:
# Count the number of stores of each type
store_counts = store_types['type'].value_counts()
print(store_counts)


type
A    11
B     1
Name: count, dtype: int64


In [68]:
# Get the proportion of stores of each type
store_props = store_types['type'].value_counts(normalize=True)
print(store_props)

type
A    0.916667
B    0.083333
Name: proportion, dtype: float64


In [69]:
# Count the number of each department number and sort
dept_counts_sorted = store_depts['department'].value_counts(sort=True)
print(dept_counts_sorted)

department
1     12
55    12
72    12
71    12
67    12
      ..
37    10
48     8
50     6
39     4
43     2
Name: count, Length: 80, dtype: int64


In [70]:
# Get the proportion of departments of each number and sort
dept_props_sorted = store_depts['department'].value_counts(sort=True, normalize=True)
print(dept_props_sorted)

department
1     0.012917
55    0.012917
72    0.012917
71    0.012917
67    0.012917
        ...   
37    0.010764
48    0.008611
50    0.006459
39    0.004306
43    0.002153
Name: proportion, Length: 80, dtype: float64
