<a href="https://colab.research.google.com/github/PabloDiosquez/Intro_to_Machine_Learning/blob/main/01_Intro_Pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>


## Introducción a Pandas
**pandas** es una herramienta de manipulación y análisis de datos de código abierto construida sobre el lenguaje de programación **Python** .

En este notebook veremos algunas de las principales caracteristicas de `pandas` y algunos de sus usos mas comunes

In [None]:
# Imports for notebook

import pandas as pd
from IPython.display import display
from datetime import datetime

### Dataframes y Series


#### Series

La serie es un objeto de python que representa una matriz unidimensional etiquetada capaz de contener cualquier tipo de datos (enteros, cadenas, números de punto flotante, objetos Python, etc.). Son homogéneas, es decir, sus elementos tienen que ser del mismo tipo, y su tamaño es inmutable (no se puede cambiar) aunque si su contenido.

Son estructuras similares a los arrays de una dimensión.


[Documentación](https://pandas.pydata.org/docs/reference/api/pandas.Series.html)

Las series pueden ser creadas de muchas formas aca dejamos un par:

In [None]:
#Serie creada con una lista
una_serie = pd.Series(['Banana', 'Manzana', 'Naranja', 'Durazno', 'Frutilla'], dtype='string')

#Serie creada con un diccionario
otra_serie = pd.Series({'A' : 10, 'B' : 20, 'C' : 30, 'D': 10})


print("Serie creada con lista:")
print(una_serie)

print("\nSerie creada con diccionario:")
print(otra_serie)

Serie creada con lista:
0      Banana
1     Manzana
2     Naranja
3     Durazno
4    Frutilla
dtype: string

Serie creada con diccionario:
A    10
B    20
C    30
D    10
dtype: int64


Atributos:

1. values: Devuelve un array de NumPy de los datos en la Serie.
2. index: Devuelve las etiquetas de índice de la Serie.
3. dtype: Devuelve el tipo de datos de los valores en la Serie.
4. size: Devuelve el número de elementos en la Serie.


In [None]:
print(f'values: {otra_serie.values}')
print(f'size: {otra_serie.size}')
print(f'index: {otra_serie.index}')
print(f'dtype: {otra_serie.dtype}')

values: [10 20 30 10]
size: 4
index: Index(['A', 'B', 'C', 'D'], dtype='object')
dtype: int64




Métodos mas usados:

1. `head()`: Devuelve las primeras n filas de la Serie (por defecto, n=5).
2. `tail()`: Devuelve las últimas n filas de la Serie (por defecto, n=5).
3. `describe()`: Calcula las estadísticas resumen para la Serie.
4. `mean()`: Calcula la media de los valores en la Serie.
5. `std()`: Calcula la desviación estándar de los valores en la Serie.
6. `min()`: Devuelve el valor mínimo en la Serie.
7. `max()`: Devuelve el valor máximo en la Serie.
8. `unique()`: Devuelve un array de los valores únicos en la Serie.
9. `value_counts()`: Devuelve una Serie que contiene el recuento de cada valor único en la Serie.
10. `sort_values()`: Devuelve una nueva Serie ordenada por los valores en orden ascendente o descendente.
11. `isin()`: Devuelve una Serie booleana que indica si cada elemento en la Serie está contenido en la lista o Serie especificada.


#### Dataframe

Un DataFrame o DF es una estructura de datos bidimensional donde cada columna es un objeto de tipo Series. Todos los datos de una misma columna son del mismo tipo, y las filas son registros que pueden contener datos de distintos tipos.

Un DF contiene dos índices, uno para las filas y otro para las columnas, y se puede acceder a sus elementos mediante los nombres de las filas y las columnas.

Se puede pensar como una una tabla SQL. Generalmente es el objeto pandas más utilizado.

En Pandas, puedes convertir una variedad de fuentes de datos y formatos de archivo en un objeto DataFrame. Aquí hay algunos ejemplos:

1. Archivos CSV (Comma Separated Values)
2. Hojas de cálculo de Excel (.xlsx, .xls, etc.)
3. Bases de datos SQL (usando la función read_sql())
4. Archivos JSON (JavaScript Object Notation)
5. Tablas HTML (usando la función read_html())
6. Datos del portapapeles (usando la función read_clipboard())
7. Diccionarios de Python
8. Arrays NumPy


Para crear un DataFrame a partir de una fuente de datos o archivo, puedes utilizar la correspondiente función de Pandas, como `read_csv()`, `read_excel()`, `read_sql()`, `read_json()`, `read_html()`, `read_clipboard()`, `DataFrame.from_dict()` y `DataFrame.from_records(`).

In [None]:
car_prices_url = 'https://raw.githubusercontent.com/IgVelasco/dfsamples/main/car_prices.csv'
df = pd.read_csv(car_prices_url)

En este caso uso una url de un archivo csv, pero esta tambien podria ser un path a tus archivos, y en collab hasta podemos montar nuestro drive y indicar el path del archivo

##### Información general del DF

`columns`: Devuelve los nombres de columna del DataFrame.


In [None]:
df.columns

Index(['make', 'model', 'year', 'mileage', 'price', 'color', 'state', 'date'], dtype='object')

`shape`: Devuelve una tupla que representa la forma del DataFrame (filas, columnas)

In [None]:
df.shape

(10000, 8)

`describe()`: Calcula las estadísticas resumen para cada columna numerica del DataFrame.

In [None]:
df.describe()

Unnamed: 0,year,mileage,price
count,10000.0,10000.0,10000.0
mean,2013.828,55798.059,29376.222
std,2.627376,25128.85138,11660.361084
min,2010.0,10284.0,10022.0
25%,2011.0,35137.5,19071.25
50%,2014.0,55739.5,29418.5
75%,2016.0,77193.75,39133.5
max,2018.0,99783.0,49998.0


`info()`: Devuelve información sobre las columnas del df

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 8 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   make     10000 non-null  object
 1   model    10000 non-null  object
 2   year     10000 non-null  int64 
 3   mileage  10000 non-null  int64 
 4   price    10000 non-null  int64 
 5   color    10000 non-null  object
 6   state    10000 non-null  object
 7   date     10000 non-null  object
dtypes: int64(3), object(5)
memory usage: 625.1+ KB


##### Observar filas del Dataframe

`head()`: Devuelve las primeras n filas del DataFrame (por defecto, n=5).

In [None]:
print("Head of dataframe")
df.head()

Head of dataframe


Unnamed: 0,make,model,year,mileage,price,color,state,date
0,Chevrolet,Cruze,2011,99157,37488,white,TX,2023-09-26 23:02:01.647970
1,Toyota,Cruze,2017,19882,34176,red,IL,2023-08-08 23:02:01.648413
2,Chevrolet,Altima,2011,77718,40297,blue,CA,2023-02-25 23:02:01.648422
3,Nissan,Fusion,2012,83613,43492,silver,TX,2023-04-25 23:02:01.648425
4,Ford,Cruze,2016,95349,26655,red,NY,2023-12-14 23:02:01.648426


`tail()`: Devuelve las últimas n filas del DataFrame (por defecto, n=5).

In [None]:
print("Tail of dataframe")
df.tail(10)

Tail of dataframe


Unnamed: 0,make,model,year,mileage,price,color,state,date
9990,Toyota,Camry,2016,41292,25734,blue,FL,2023-05-25 23:02:01.650153
9991,Toyota,Accord,2016,30406,49110,blue,IL,2023-04-30 23:02:01.650158
9992,Honda,Accord,2018,20374,32248,silver,NY,2023-07-16 23:02:01.650160
9993,Chevrolet,Altima,2014,84439,42702,silver,IL,2023-11-18 23:02:01.650161
9994,Chevrolet,Accord,2018,26933,21813,silver,TX,2023-06-09 23:02:01.650163
9995,Honda,Altima,2017,25154,43139,red,FL,2023-10-07 23:02:01.650165
9996,Chevrolet,Accord,2017,68264,15632,white,TX,2024-01-05 23:02:01.650166
9997,Nissan,Cruze,2016,17417,30832,silver,IL,2023-03-29 23:02:01.650168
9998,Honda,Accord,2011,68878,10801,blue,TX,2023-05-02 23:02:01.650170
9999,Chevrolet,Cruze,2010,99313,31827,black,CA,2023-08-13 23:02:01.650171


`sample()`: Devuelve un conjunto random n de filas del DataFrame (por defecto, n=1).

In [None]:
print("Sample of dataframe")
display(df.sample(10))

print("\n\nSample del df mostrando que cambia el valor")

display(df.sample())

Sample of dataframe


Unnamed: 0,make,model,year,mileage,price,color,state,date
1950,Chevrolet,Camry,2011,21308,18800,black,CA,2023-09-09 23:02:01.650089
7093,Nissan,Altima,2013,33127,26736,white,FL,2023-11-01 23:02:01.648577
6837,Honda,Accord,2017,54386,12271,silver,TX,2024-01-20 23:02:01.649902
4813,Toyota,Accord,2016,49318,40180,silver,FL,2023-07-02 23:02:01.649863
8782,Ford,Cruze,2012,64858,24230,red,FL,2023-10-03 23:02:01.649814
434,Toyota,Accord,2011,89020,33420,black,IL,2023-04-21 23:02:01.649162
1754,Nissan,Altima,2017,25716,10091,red,TX,2023-04-27 23:02:01.649730
15,Ford,Fusion,2015,95389,10597,black,CA,2023-10-31 23:02:01.648446
5007,Honda,Cruze,2013,43679,41753,red,FL,2023-05-14 23:02:01.648432
974,Toyota,Camry,2010,51751,15292,black,FL,2023-11-28 23:02:01.650128




Sample del df mostrando que cambia el valor


Unnamed: 0,make,model,year,mileage,price,color,state,date
9148,Nissan,Fusion,2017,33364,25338,silver,NY,2023-09-10 23:02:01.648691


`isna()`: Devuelve un objeto del mismo tamaño indicando si los valores son `NA`. Los valores `NA`, pore ejemplo `None` o `numpy.NaN`, mapean a `True` mientra que todo lo demas mapea a `False` value.

In [None]:
df.isna().head()

Unnamed: 0,make,model,year,mileage,price,color,state,date
0,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False


In [None]:
df.isna().sum()

make       0
model      0
year       0
mileage    0
price      0
color      0
state      0
date       0
dtype: int64

`nunique`: Devuelve la cantidad de valores unicos por columna

In [None]:
df.nunique()

make          5
model         5
year          9
mileage     993
price       994
color         5
state         5
date       1000
dtype: int64

---
## Manipulación de Data

### Loc

`loc` es un método de selección basado en etiquetas, lo que significa que selecciona datos basados en etiquetas de filas y columnas.

Para seleccionar filas específicas usando loc, puedes especificar la etiqueta de la fila(s) que deseas seleccionar. Por ejemplo, para seleccionar la primera fila, podemos usar:

(Tengamos en cuenta que si los indices fueran con letras, se podria seleccionar con esas etiquetas)

In [None]:
df.index

RangeIndex(start=0, stop=10000, step=1)

In [None]:
df.loc[0]

make                        Chevrolet
model                           Cruze
year                             2011
mileage                         99157
price                           37488
color                           white
state                              TX
date       2023-09-26 23:02:01.647970
Name: 0, dtype: object

Como vemos nos devolvío una serie, ahora si queremos seleccionar multiples filas podemos usar:

In [None]:
df.loc[[0, 2]]

Unnamed: 0,make,model,year,mileage,price,color,state,date
0,Chevrolet,Cruze,2011,99157,37488,white,TX,2023-09-26 23:02:01.647970
2,Chevrolet,Altima,2011,77718,40297,blue,CA,2023-02-25 23:02:01.648422


Podemos ver que recibimos un dataframe ya que son multiples filas.

Tambien se puede hacer uso de la terminologia de python en los arrays  `[start:stop:step]` y podemos especificar columnas




In [None]:
df.loc[:, ['make', 'model']]

Unnamed: 0,make,model
0,Chevrolet,Cruze
1,Toyota,Cruze
2,Chevrolet,Altima
3,Nissan,Fusion
4,Ford,Cruze
...,...,...
9995,Honda,Altima
9996,Chevrolet,Accord
9997,Nissan,Cruze
9998,Honda,Accord


De la siguiente forma podriamos quedarnos con solo las columnas `make` y `model`

In [None]:
df.loc[:,['make', 'model']]

Unnamed: 0,make,model
0,Chevrolet,Cruze
1,Toyota,Cruze
2,Chevrolet,Altima
3,Nissan,Fusion
4,Ford,Cruze
...,...,...
9995,Honda,Altima
9996,Chevrolet,Accord
9997,Nissan,Cruze
9998,Honda,Accord


A mi particularmente me gusta la siguiente sintaxis para lo mismo:

In [None]:
df[['make', 'model']]

Unnamed: 0,make,model
0,Chevrolet,Cruze
1,Toyota,Cruze
2,Chevrolet,Altima
3,Nissan,Fusion
4,Ford,Cruze
...,...,...
9995,Honda,Altima
9996,Chevrolet,Accord
9997,Nissan,Cruze
9998,Honda,Accord


### Iloc
`iloc` es un método de selección basado en enteros, lo que significa que selecciona datos basados en índices enteros de filas y columnas.


In [None]:
df.columns

Index(['make', 'model', 'year', 'mileage', 'price', 'color', 'state', 'date'], dtype='object')

La funcion en si es bastante simple, aca dejo un ejemplo donde muestro que las columnas no las accedo por etiquetas si no por numero entero en el cual es el indice de la columna

In [None]:
df.iloc[1:20:5, [0, 1]]

Unnamed: 0,make,model
1,Toyota,Cruze
6,Ford,Camry
11,Honda,Cruze
16,Honda,Altima


No voy a avanzar mucho mas con ejemplos ya que es bastante simple y los invito a jugar un poco con esto!

### Filtrado
Hay distintas formas en las que podemos filtrar data en Pandas en esta sección veremos algunas

#### 1. Por medio de condiciones:

In [None]:
df['mileage'] > 19000

0        True
1        True
2        True
3        True
4        True
        ...  
9995     True
9996     True
9997    False
9998     True
9999     True
Name: mileage, Length: 10000, dtype: bool

In [None]:
# Tamaño de Dataframe sin filtrar
print(df.shape)

# Tamaño de Dataframe filtrado
print(df[df['mileage'] > 19000].shape)

df[df['mileage'] > 19000].head()

(10000, 8)
(9080, 8)


Unnamed: 0,make,model,year,mileage,price,color,state,date
0,Chevrolet,Cruze,2011,99157,37488,white,TX,2023-09-26 23:02:01.647970
1,Toyota,Cruze,2017,19882,34176,red,IL,2023-08-08 23:02:01.648413
2,Chevrolet,Altima,2011,77718,40297,blue,CA,2023-02-25 23:02:01.648422
3,Nissan,Fusion,2012,83613,43492,silver,TX,2023-04-25 23:02:01.648425
4,Ford,Cruze,2016,95349,26655,red,NY,2023-12-14 23:02:01.648426


Tambien se puede hacer uso de multiples condiciones usando operadores logicos

In [None]:
df[(df['mileage'] > 19000) & (df['model'] == 'Cruze')].head()

Unnamed: 0,make,model,year,mileage,price,color,state,date
0,Chevrolet,Cruze,2011,99157,37488,white,TX,2023-09-26 23:02:01.647970
1,Toyota,Cruze,2017,19882,34176,red,IL,2023-08-08 23:02:01.648413
4,Ford,Cruze,2016,95349,26655,red,NY,2023-12-14 23:02:01.648426
7,Honda,Cruze,2013,43679,41753,red,FL,2023-05-14 23:02:01.648432
10,Nissan,Cruze,2012,33608,15420,red,CA,2023-12-01 23:02:01.648438


In [None]:
filter_cruze_white_df = df[(df['mileage'] > 19000) & (df['model'] == 'Cruze') & (df['color'] == 'white')]

print(filter_cruze_white_df.shape)
filter_cruze_white_df.head()

(450, 8)


Unnamed: 0,make,model,year,mileage,price,color,state,date
0,Chevrolet,Cruze,2011,99157,37488,white,TX,2023-09-26 23:02:01.647970
28,Toyota,Cruze,2010,26672,21328,white,NY,2023-07-18 23:02:01.648468
103,Honda,Cruze,2018,77840,35296,white,TX,2023-10-12 23:02:01.648592
120,Honda,Cruze,2015,82788,28422,white,TX,2023-07-16 23:02:01.648645
126,Chevrolet,Cruze,2013,59673,12425,white,IL,2023-05-29 23:02:01.648655


Se les ocurre como podriamos hacer con color blanco **o** rojo?

In [None]:
# @title

filter_cruze_white_red_df = df[(df['mileage'] > 19000) & (df['model'] == 'Cruze') & ((df['color'] == 'white') | (df['color'] == 'red'))]
filter_cruze_white_red_df.sample(10)

Unnamed: 0,make,model,year,mileage,price,color,state,date
4060,Honda,Cruze,2018,63917,47289,red,TX,2023-04-17 23:02:01.648522
1727,Chevrolet,Cruze,2010,24728,25142,red,CA,2023-06-08 23:02:01.649687
4500,Chevrolet,Cruze,2010,20774,10312,white,FL,2023-07-06 23:02:01.649280
9103,Honda,Cruze,2018,77840,35296,white,TX,2023-10-12 23:02:01.648592
5329,Nissan,Cruze,2015,52492,31701,white,TX,2023-05-23 23:02:01.648992
1120,Honda,Cruze,2015,82788,28422,white,TX,2023-07-16 23:02:01.648645
5028,Toyota,Cruze,2010,26672,21328,white,NY,2023-07-18 23:02:01.648468
329,Nissan,Cruze,2015,52492,31701,white,TX,2023-05-23 23:02:01.648992
5620,Honda,Cruze,2017,22650,21426,red,CA,2023-11-28 23:02:01.649474
9812,Ford,Cruze,2011,40179,28301,red,CA,2023-04-25 23:02:01.649862


Esto mismo se puede realizar con loc, a mi particularmente me gusta mas la notacion sin loc ya que es mas limpia:

In [None]:
filter_cruze_white_df = df.loc[(df['mileage'] > 19000) & (df['model'] == 'Cruze') & (df['color'] == 'white')]
print(filter_cruze_white_df.shape)
filter_cruze_white_df.head()


(450, 8)


Unnamed: 0,make,model,year,mileage,price,color,state,date
0,Chevrolet,Cruze,2011,99157,37488,white,TX,2023-09-26 23:02:01.647970
28,Toyota,Cruze,2010,26672,21328,white,NY,2023-07-18 23:02:01.648468
103,Honda,Cruze,2018,77840,35296,white,TX,2023-10-12 23:02:01.648592
120,Honda,Cruze,2015,82788,28422,white,TX,2023-07-16 23:02:01.648645
126,Chevrolet,Cruze,2013,59673,12425,white,IL,2023-05-29 23:02:01.648655


#### 2. Filtrado por medio de lista

Un ejemplos claro para entender un poco el caso:

Queremos conseguir los autos que se venden y que se encuentran en una lista/serie de tamaño `n`.

Con lo que vimos hasta el momento esto deberiamos filtrar este dataframe y quedarnos con  `df[condición | condición...]`

Pero tambien podemos hacer uso de `isin()`


In [None]:
df['make'].value_counts()

Nissan       2240
Chevrolet    2090
Toyota       2060
Ford         1870
Honda        1740
Name: make, dtype: int64

In [None]:
makers_list_df = df.loc[df['make'].isin(['Toyota','Chevrolet', 'GMC', 'BMW']) ]

print(f"Tamaño de Dataframe de Makers: {makers_list_df.shape}")
makers_list_df.head()

Tamaño de Dataframe de Makers: (4150, 8)


Unnamed: 0,make,model,year,mileage,price,color,state,date
0,Chevrolet,Cruze,2011,99157,37488,white,TX,2023-09-26 23:02:01.647970
1,Toyota,Cruze,2017,19882,34176,red,IL,2023-08-08 23:02:01.648413
2,Chevrolet,Altima,2011,77718,40297,blue,CA,2023-02-25 23:02:01.648422
5,Toyota,Accord,2017,23744,10359,silver,IL,2024-01-27 23:02:01.648428
12,Toyota,Camry,2012,91479,21942,red,CA,2023-12-02 23:02:01.648441


Esto tambien se puede hacer con una serie:

In [None]:
series_of_makers = df['make'].sample(2, replace=False)
series_of_makers

9111      Ford
6476    Nissan
Name: make, dtype: object

In [None]:
makers_list_df_series = df[df['make'].isin(series_of_makers)]
print(f"Tamaño de Dataframe de Makers: {makers_list_df_series.shape}")
makers_list_df_series.sample(10)

Tamaño de Dataframe de Makers: (4110, 8)


Unnamed: 0,make,model,year,mileage,price,color,state,date
3368,Ford,Fusion,2015,82505,12102,white,CA,2023-10-29 23:02:01.649056
9490,Ford,Fusion,2011,47124,30257,black,TX,2024-01-04 23:02:01.649260
2760,Nissan,Fusion,2010,66163,36421,white,IL,2023-04-18 23:02:01.649740
8189,Ford,Camry,2014,79015,24020,blue,CA,2023-08-17 23:02:01.648757
88,Ford,Altima,2017,97052,22058,blue,FL,2023-09-21 23:02:01.648568
9395,Nissan,Altima,2015,39523,14722,white,NY,2023-04-13 23:02:01.649099
7719,Ford,Cruze,2011,67456,23716,silver,IL,2023-06-06 23:02:01.649673
394,Ford,Cruze,2014,98661,34128,blue,FL,2023-04-30 23:02:01.649098
4534,Ford,Camry,2010,57651,32950,black,CA,2023-04-06 23:02:01.649334
6740,Nissan,Fusion,2015,88007,21480,white,TX,2023-12-06 23:02:01.649707


Y por ultimo esto tambien se puede negar!

In [None]:
makers_list_df_series_negated = df[~df['make'].isin(series_of_makers)]
print(f"Tamaño de Dataframe de Makers: {makers_list_df_series_negated.shape}")
makers_list_df_series_negated.sample(10)

Tamaño de Dataframe de Makers: (5890, 8)


Unnamed: 0,make,model,year,mileage,price,color,state,date
3704,Chevrolet,Camry,2016,31139,12166,black,CA,2023-09-03 23:02:01.649649
9577,Toyota,Camry,2013,97328,27098,blue,NY,2023-05-10 23:02:01.649404
8960,Honda,Camry,2013,13377,31403,blue,CA,2023-04-13 23:02:01.650106
2774,Chevrolet,Cruze,2012,57851,12957,red,NY,2023-07-01 23:02:01.649800
5005,Toyota,Accord,2017,23744,10359,silver,IL,2024-01-27 23:02:01.648428
6487,Chevrolet,Cruze,2011,39503,21989,silver,IL,2023-04-06 23:02:01.649255
8665,Chevrolet,Camry,2010,64763,43757,white,IL,2023-12-23 23:02:01.649546
6197,Honda,Altima,2017,74772,48787,white,NY,2023-07-01 23:02:01.648770
7083,Honda,Altima,2011,36640,41110,red,CA,2024-01-09 23:02:01.648560
5022,Honda,Cruze,2011,51408,46098,silver,CA,2023-11-26 23:02:01.648458


#### 3. Filtrado por medio de indice

Esto es bastante simple y es practicamente lo que vemos en iloc. Si necesitan los invito a investigar mas :)


### Agregación de data y agrupado

---
#### 1. Groupby
<!-- TODO: explicar por que el reset_index() es necesario -->
El método `groupby()` se utiliza para agrupar filas de datos en función de una o más columnas y luego aplicar funciones de agregación a esos grupos. Esto puede ser útil para el análisis de datos y para explorar patrones en los datos.

Con un ejemplo vamos a hacer agrupar los autos por `make`, `model` y `year`

Hacemos un conteo de los distintas combinaciones de `make`, `model` y `year` haciendo uso de la función de `value_counts()`

In [None]:
different_cars_count = df[['make', 'model', 'year']].value_counts()
different_cars_count#.head()

make       model   year
Nissan     Altima  2016    100
Toyota     Camry   2014    100
Chevrolet  Accord  2011    100
Ford       Fusion  2014     90
Toyota     Accord  2012     90
                          ... 
Chevrolet  Cruze   2016     10
Nissan     Accord  2015     10
Honda      Altima  2016     10
           Accord  2015     10
Toyota     Fusion  2018     10
Length: 221, dtype: int64

Aca podemos ver que value counts nos devuelve una serie, y podemos seguir aplicando funciones de series, como `count`

In [None]:
type(different_cars_count)

In [None]:
different_cars_count.count()

221

Vamos a ver de conseguir el minimo valor por el cual se vende cada combinacion de auto.

In [None]:
df_groupby = df.groupby(['make', 'model', 'year'])['price'].max().reset_index()
df_groupby.shape

(221, 4)

In [None]:
df_groupby.head(10)

Unnamed: 0,make,model,year,price
0,Chevrolet,Accord,2010,46265
1,Chevrolet,Accord,2011,49998
2,Chevrolet,Accord,2012,42134
3,Chevrolet,Accord,2013,47104
4,Chevrolet,Accord,2014,46482
5,Chevrolet,Accord,2015,49464
6,Chevrolet,Accord,2016,48936
7,Chevrolet,Accord,2017,46310
8,Chevrolet,Accord,2018,48807
9,Chevrolet,Altima,2010,46759


Vamos a ver los precios de el Chevrolet Accord del año 2010 ordenados.

In [None]:
df[(df['make'] == 'Chevrolet') & (df['model'] == 'Accord') & (df['year'] == 2010)]['price'].value_counts().sort_index()

19455    10
19859    10
33644    10
37518    10
42874    10
46265    10
Name: price, dtype: int64

---

#### 2. Funciones de agregación





En pandas, las funciones de agregación se utilizan para calcular resúmenes estadísticos sobre los datos. Estas funciones se aplican a los datos agrupados en función de una o más columnas y devuelven un valor único que representa el resumen de los datos en esa columna.

Aquí están algunas ejemplos de funciones de agregacion en pandas:

Sacar el precio minimo de venta por marca

In [None]:
precio_medio_marca = df.groupby('make')['price'].min().reset_index()
precio_medio_marca.head()

Unnamed: 0,make,price
0,Chevrolet,10037
1,Ford,10539
2,Honda,10032
3,Nissan,10091
4,Toyota,10022


Sacar el millaje medio de las marcas de autos

In [None]:
millaje_medio_marca = df.groupby('make')['mileage'].mean().reset_index()
millaje_medio_marca.head()

Unnamed: 0,make,mileage
0,Chevrolet,56391.263158
1,Ford,59450.716578
2,Honda,53825.063218
3,Nissan,54573.875
4,Toyota,54878.116505


Estas son solo algunas de las funciones de agregación disponibles en pandas. También hay muchas otras funciones útiles, como `median()`, `std()`, `var()`, `count()`, `min()`, `max()`, etc. Estas funciones se utilizan comúnmente para analizar y resumir grandes conjuntos de datos.

**Multiples Agregación**


Podemos realizar multiples funciones de agregación juntas utilizando el metodo `.agg()`.

In [None]:
df.groupby('make')['mileage'].agg(['min', 'max' , 'mean']).reset_index()

Unnamed: 0,make,min,max,mean
0,Chevrolet,10338,99521,56391.263158
1,Ford,10284,99672,59450.716578
2,Honda,10838,99415,53825.063218
3,Nissan,11522,99295,54573.875
4,Toyota,10303,99783,54878.116505


Ahora podemos aplicarlo al dataframe directo usando un objeto que indique las columnas

In [None]:
resumen = df.groupby('make').agg({
    'price': ['min', 'max', 'mean'],
    'mileage': ['sum', 'count']
})

resumen.head()

Unnamed: 0_level_0,price,price,price,mileage,mileage
Unnamed: 0_level_1,min,max,mean,sum,count
make,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Chevrolet,10037,49998,28676.253589,117857740,2090
Ford,10539,49907,29929.144385,111172840,1870
Honda,10032,49971,28687.770115,93655610,1740
Nissan,10091,49989,29580.183036,122245480,2240
Toyota,10022,49871,29944.184466,113048920,2060


In [None]:
# Removemos las subcolumnas y renombramos las columnas resultantes

print(resumen.columns)
resumen.columns = resumen.columns.map('_'.join)

resumen = resumen.reset_index()

resumen.head()

MultiIndex([(  'price',   'min'),
            (  'price',   'max'),
            (  'price',  'mean'),
            ('mileage',   'sum'),
            ('mileage', 'count')],
           )


Unnamed: 0,make,price_min,price_max,price_mean,mileage_sum,mileage_count
0,Chevrolet,10037,49998,28676.253589,117857740,2090
1,Ford,10539,49907,29929.144385,111172840,1870
2,Honda,10032,49971,28687.770115,93655610,1740
3,Nissan,10091,49989,29580.183036,122245480,2240
4,Toyota,10022,49871,29944.184466,113048920,2060


---
### Transforming data with functions and mapping

#### Aplicar funciones a datos

En esta sección vamos a poder ver como aplicar una funcion a cada fila del dataframe, para este caso queremos de la fecha del auto sacar la edad

In [None]:

# Funcion que define la edad del auto
def calculate_age(year):
    # Esta libreria de fecha siempre suele ser util para simplificar el manejo de fechas
    current_year = datetime.now().year
    age = current_year - year
    return age

# Aplicar la funcion a la columna year y crear age column
df['age'] = df['year'].apply(calculate_age)

df.head()

Unnamed: 0,make,model,year,mileage,price,color,state,date,age
0,Chevrolet,Cruze,2011,99157,37488,white,TX,2023-09-26 23:02:01.647970,13
1,Toyota,Cruze,2017,19882,34176,red,IL,2023-08-08 23:02:01.648413,7
2,Chevrolet,Altima,2011,77718,40297,blue,CA,2023-02-25 23:02:01.648422,13
3,Nissan,Fusion,2012,83613,43492,silver,TX,2023-04-25 23:02:01.648425,12
4,Ford,Cruze,2016,95349,26655,red,NY,2023-12-14 23:02:01.648426,8


Tambien podemos hacer uso de las funciones lambda de python, en este ejemplo conseguiremos las millas por año de los autos:

In [None]:
df['mileage_per_year'] = df.apply(lambda row: row['mileage'] / row['age'], axis=1)
df.head()

Unnamed: 0,make,model,year,mileage,price,color,state,date,age,mileage_per_year
0,Chevrolet,Cruze,2011,99157,37488,white,TX,2023-09-26 23:02:01.647970,13,7627.461538
1,Toyota,Cruze,2017,19882,34176,red,IL,2023-08-08 23:02:01.648413,7,2840.285714
2,Chevrolet,Altima,2011,77718,40297,blue,CA,2023-02-25 23:02:01.648422,13,5978.307692
3,Nissan,Fusion,2012,83613,43492,silver,TX,2023-04-25 23:02:01.648425,12,6967.75
4,Ford,Cruze,2016,95349,26655,red,NY,2023-12-14 23:02:01.648426,8,11918.625


#### Aplicar funciones a grupos


Queremos calcular la diferencia entre el precio de cada automóvil y el precio promedio de los automóviles del mismo fabricante y modelo en el mismo estado. Podemos lograr esto agrupando los datos por las columnas 'make', 'model' y 'state', y aplicando una función a cada grupo utilizando el método .apply().

In [None]:
# Funcion que calcula la diferencia entre la media del grupo y la fila
def calculate_price_difference(group):
    avg_price = group['price'].mean()
    price_difference = group['price'] - avg_price
    return price_difference

# Agrupamos la data por las columnas 'make', 'model', and 'state', aplicamos la funcion, y creamos la columna diferente
df['price_difference'] = df.groupby(['make', 'model', 'state']).apply(calculate_price_difference).reset_index(drop=True)
df.head()

Unnamed: 0,make,model,year,mileage,price,color,state,date,age,mileage_per_year,price_difference
0,Chevrolet,Cruze,2011,99157,37488,white,TX,2023-09-26 23:02:01.647970,12,8263.083333,4214.0
1,Toyota,Cruze,2017,19882,34176,red,IL,2023-08-08 23:02:01.648413,6,3313.666667,15741.0
2,Chevrolet,Altima,2011,77718,40297,blue,CA,2023-02-25 23:02:01.648422,12,6476.5,13411.0
3,Nissan,Fusion,2012,83613,43492,silver,TX,2023-04-25 23:02:01.648425,11,7601.181818,12961.0
4,Ford,Cruze,2016,95349,26655,red,NY,2023-12-14 23:02:01.648426,7,13621.285714,-22669.0


#### Merge y Join #TODO

## Bibliografía

1. [10 minutes to pandas](https://pandas.pydata.org/docs/user_guide/10min.html)
2. [Pandas Documentation](https://pandas.pydata.org/docs/)