In [187]:
import pandas as pd
pd.set_option('display.max_columns', None)  # Para que se muestren todas las columnas
pd.set_option('display.max_rows', None)  # Para mostrar todas las filas sin truncar
pd.set_option('display.width', 1000)  # Ajusta el ancho máximo de las columnas

# Pandas 

## Resumen de comandos

### 1. Limpieza de Datos

| Función/Comando       | Descripción                                                                                      | Sintaxis Básica                                                | Cuándo Usarlo                                         |
|-----------------------|--------------------------------------------------------------------------------------------------|---------------------------------------------------------------|------------------------------------------------------|
| `dropna()`            | Elimina valores nulos (NaN) de un DataFrame o Serie.                                                | `df.dropna()`                                                  | Eliminar filas o columnas con NaN.                   |
| `fillna()`            | Rellena los valores nulos con un valor específico.                                                | `df.fillna(value)`                                             | Reemplazar NaN con un valor predeterminado.           |
| `replace()`           | Reemplaza valores específicos dentro del DataFrame o Serie.                                       | `df.replace(to_replace, value)`                                | Reemplazar valores con otros específicos.            |
| `drop_duplicates()`   | Elimina filas duplicadas del DataFrame.                                                           | `df.drop_duplicates()`                                         | Eliminar duplicados.                                 |
| `duplicated()`        | Devuelve una serie booleana indicando si las filas son duplicadas.                                | `df.duplicated()`                                              | Identificar filas duplicadas.                        |
| `isnull()`            | Devuelve un DataFrame o Serie booleana que indica si los valores son nulos.                       | `df.isnull()`                                                  | Identificar valores nulos (NaN).                     |
| `notnull()`           | Devuelve un DataFrame o Serie booleana que indica si los valores no son nulos.                    | `df.notnull()`                                                 | Identificar valores no nulos.                        |
| `dropna(axis=1)`      | Elimina columnas con valores nulos.                                                               | `df.dropna(axis=1)`                                            | Eliminar columnas con NaN.                           |

### 2. Información y Descripción de Datos

| Función/Comando       | Descripción                                                                                      | Sintaxis Básica                                                | Cuándo Usarlo                                         |
|-----------------------|--------------------------------------------------------------------------------------------------|---------------------------------------------------------------|------------------------------------------------------|
| `info()`              | Proporciona un resumen conciso del DataFrame (tipos de datos, conteo de valores no nulos).         | `df.info()`                                                    | Obtener un resumen rápido del DataFrame.             |
| `describe()`          | Devuelve estadísticas descriptivas sobre las columnas numéricas (media, desviación estándar, etc.)| `df.describe()`                                                | Obtener estadísticas básicas de las columnas numéricas. |
| `head()`              | Muestra las primeras N filas del DataFrame.                                                      | `df.head(n)`                                                   | Ver las primeras filas del DataFrame.                |
| `tail()`              | Muestra las últimas N filas del DataFrame.                                                       | `df.tail(n)`                                                   | Ver las últimas filas del DataFrame.                 |
| `memory_usage()`      | Muestra la cantidad de memoria utilizada por el DataFrame.                                        | `df.memory_usage()`                                            | Evaluar el uso de memoria del DataFrame.             |
| `dtypes()`            | Devuelve los tipos de datos de cada columna.                                                     | `df.dtypes`                                                    | Verificar el tipo de datos de cada columna.          |

### 3. Selección y Filtrado de Datos

| Función/Comando       | Descripción                                                                                      | Sintaxis Básica                                                | Cuándo Usarlo                                         |
|-----------------------|--------------------------------------------------------------------------------------------------|---------------------------------------------------------------|------------------------------------------------------|
| `loc[]`               | Selecciona filas y columnas por etiquetas.                                                       | `df.loc[filas, columnas]`                                     | Selección por etiquetas.                             |
| `iloc[]`              | Selecciona filas y columnas por índices.                                                        | `df.iloc[filas, columnas]`                                    | Selección por índices.                               |
| `query()`             | Filtra el DataFrame usando una expresión booleana como una cadena de texto.                      | `df.query('columna > 10')`                                    | Filtrado avanzado usando expresiones.               |
| `isin()`              | Filtra los datos que contienen ciertos valores en una columna.                                   | `df[df['columna'].isin([valores])]`                            | Filtrar por valores específicos.                     |
| `between()`           | Filtra los valores que están dentro de un rango de valores.                                       | `df[df['columna'].between(5, 10)]`                             | Filtrar valores dentro de un rango.                  |
| `filter()`            | Filtra columnas o filas según un patrón.                                                         | `df.filter(like='nombre')`                                    | Filtrar por nombres de columna o por patrones.       |

### 4. Transformación de Datos

| Función/Comando       | Descripción                                                                                      | Sintaxis Básica                                                | Cuándo Usarlo                                         |
|-----------------------|--------------------------------------------------------------------------------------------------|---------------------------------------------------------------|------------------------------------------------------|
| `apply()`             | Aplica una función a lo largo de las filas o columnas del DataFrame.                             | `df.apply(func, axis=1)`                                       | Aplicar funciones personalizadas a filas/columnas.   |
| `map()`               | Aplica una función a cada elemento de una Serie.                                                 | `df['columna'].map(func)`                                      | Aplicar función a cada elemento de una Serie.        |
| `applymap()`          | Aplica una función a cada elemento de un DataFrame (solo para DataFrames).                       | `df.applymap(func)`                                            | Aplicar función a cada valor de un DataFrame completo. |
| `transform()`         | Aplica una función a cada columna o fila y devuelve un DataFrame del mismo tamaño.                | `df.transform(func)`                                           | Aplicar funciones a columnas o filas de manera flexible. |
| `astype()`            | Cambia el tipo de datos de una columna.                                                         | `df['columna'].astype(tipo)`                                   | Cambiar el tipo de datos de una columna.             |
| `pivot_table()`       | Crea una tabla dinámica con agregaciones.                                                       | `df.pivot_table(values='columna', index='fila', aggfunc='mean')` | Crear una tabla dinámica con agregados.               |
| `melt()`              | Convierte el DataFrame de formato ancho a largo.                                                 | `df.melt(id_vars, value_vars)`                                 | Convertir datos de formato ancho a largo.            |
| `stack()`             | Apila las columnas del DataFrame en un índice multi-nivel.                                      | `df.stack()`                                                   | Apilar columnas en un DataFrame de varias dimensiones. |
| `unstack()`           | Convierte un índice multi-nivel en columnas.                                                    | `df.unstack()`                                                 | Convertir índices apilados en columnas.              |

### 5. Operaciones de Agregación

| Función/Comando       | Descripción                                                                                      | Sintaxis Básica                                                | Cuándo Usarlo                                         |
|-----------------------|--------------------------------------------------------------------------------------------------|---------------------------------------------------------------|------------------------------------------------------|
| `groupby()`           | Agrupa el DataFrame por una o más columnas y luego realiza agregaciones sobre ellos.             | `df.groupby('columna').agg(func)`                              | Agrupar datos para aplicar agregaciones.             |
| `sum()`               | Suma los valores de una columna.                                                                  | `df['columna'].sum()`                                          | Sumar los valores de una columna.                    |
| `mean()`              | Calcula la media de una columna.                                                                  | `df['columna'].mean()`                                         | Calcular la media de una columna.                    |
| `count()`             | Cuenta los valores no nulos en una columna.                                                      | `df['columna'].count()`                                        | Contar valores no nulos en una columna.              |
| `min()`               | Devuelve el valor mínimo de una columna.                                                         | `df['columna'].min()`                                          | Encontrar el valor mínimo.                            |
| `max()`               | Devuelve el valor máximo de una columna.                                                         | `df['columna'].max()`                                          | Encontrar el valor máximo.                            |
| `agg()`               | Aplica múltiples funciones de agregación a columnas específicas.                                 | `df.groupby('columna').agg({'columna1': 'mean', 'columna2': 'sum'})` | Aplicar varias funciones de agregación a las columnas. |

### 6. Manejo de Fechas

| Función/Comando       | Descripción                                                                                      | Sintaxis Básica                                                | Cuándo Usarlo                                         |
|-----------------------|--------------------------------------------------------------------------------------------------|---------------------------------------------------------------|------------------------------------------------------|
| `to_datetime()`       | Convierte cadenas de texto a tipo datetime.                                                      | `pd.to_datetime(df['columna'])`                                | Convertir texto en fechas.                           |
| `dt`                  | Accede a las propiedades de una columna datetime (mes, año, día, etc.).                          | `df['columna'].dt.year`                                        | Extraer partes específicas de las fechas.            |
| `timedelta()`         | Crea una diferencia de tiempo.                                                                   | `pd.Timedelta('1 day')`                                        | Crear diferencias de tiempo para cálculos.           |
| `resample()`          | Cambia la frecuencia temporal de los datos.                                                      | `df.resample('D').mean()`                                      | Resampleo de series temporales (por ejemplo, de horas a días). |

### 7. Unión de Tablas

| Función/Comando       | Descripción                                                                                      | Sintaxis Básica                                                | Cuándo Usarlo                                         |
|-----------------------|--------------------------------------------------------------------------------------------------|---------------------------------------------------------------|------------------------------------------------------|
| `merge()`             | Realiza una unión entre dos DataFrames basándose en una o más columnas comunes, similar a SQL.    | `pd.merge(df1, df2, on='columna')`                             | Unir DataFrames basados en una o más columnas comunes. |
| `concat()`            | Concatena múltiples DataFrames o Series a lo largo de un eje, puede ser filas (eje 0) o columnas (eje 1). | `pd.concat([df1, df2], axis=0)`                                | Concatenar DataFrames a lo largo de filas o columnas. |
| `join()`              | Realiza una unión de DataFrames usando el índice de las tablas (similar a una operación `left join` en SQL). | `df1.join(df2)`                                                | Unir DataFrames usando el índice de las tablas.      |

### 8. Operaciones de Unión y Combinación (Otros Comandos Útiles)

| Función/Comando       | Descripción                                                                                      | Sintaxis Básica                                                | Cuándo Usarlo                                         |
|-----------------------|--------------------------------------------------------------------------------------------------|---------------------------------------------------------------|------------------------------------------------------|
| `combine_first()`      | Combina dos DataFrames, dando preferencia a los valores no nulos del primer DataFrame.             | `df1.combine_first(df2)`                                       | Combinar dos DataFrames, manteniendo los valores del primero cuando no son nulos. |
| `append()`             | Añade filas de un DataFrame a otro.                                                              | `df1.append(df2)`                                              | Agregar filas de un DataFrame a otro, similar a `concat` con `axis=0`. |
| `update()`             | Actualiza los valores de un DataFrame con los valores de otro, manteniendo el índice y las columnas. | `df1.update(df2)`                                              | Actualizar un DataFrame con datos de otro, usando los mismos índices y columnas. |
| `xs()`                 | Selecciona una fila o columna de un DataFrame con un índice específico.                           | `df.xs(key, axis=0)`                                           | Extraer una fila o columna del DataFrame usando un índice específico. |


## Instalar e importar pandas

In [None]:
#Instalar pandas
!pip install pandas

In [2]:
#Importación
import pandas as pd

## Crear un DataFrame

#### Diccionario a Dataframe

**Ejemplo 1**:

In [62]:
data = [{'id': 1, 'nombre': 'Camilo'}, {'id': 2, 'nombre': 'Jimena'}]

df = pd.DataFrame(data)
print('personas \n\n', df)

personas 

    id  nombre
0   1  Camilo
1   2  Jimena


 animales: 

    perros      gatos
0   coker      carey
1  golden  siberiano
2  collie     somalí


**Ejemplo 2**:

In [67]:
dict ={'PERROS': ['coker', 'golden', 'collie'],
      'GATOS': ['carey', 'siberiano', 'somalí']}

df_animales = pd.DataFrame(dict)
print('\n\n animales: \n\n', df_animales)



 animales: 

    PERROS      GATOS
0   coker      carey
1  golden  siberiano
2  collie     somalí


## Lectura de datos en Pandas

### De CSV a DataFrame

**Sintaxis**:

In [None]:
# importar pandas 
import pandas as pd 

# definir la ruta del archivo 
file_path = 'ruta/del/archivo.csv'

#Leer el archivo en un DataFrame
df=pd.read_csv(file_path, header=None)

**Ejemplo 1:**

In [107]:
import pandas as pd

url = 'https://cf-courses-data.s3.us.cloud-object-storage.appdomain.cloud/IBMDeveloperSkillsNetwork-DV0101EN-SkillsNetwork/Data%20Files/historical_automobile_sales.csv'
df =pd.read_csv(url)

## Obtener información DataFrame

### Tabla ordenada con encabezados

**Ejemplo 1**:

In [8]:
df.head()

Unnamed: 0,Date,Year,Month,Recession,Consumer_Confidence,Seasonality_Weight,Price,Advertising_Expenditure,Competition,GDP,Growth_Rate,unemployment_rate,Automobile_Sales,Vehicle_Type,City
0,1/31/1980,1980,Jan,1,108.24,0.5,27483.571,1558,7,60.223,0.01,5.4,456.0,Supperminicar,Georgia
1,2/29/1980,1980,Feb,1,98.75,0.75,24308.678,3048,4,45.986,-0.309594,4.8,555.9,Supperminicar,New York
2,3/31/1980,1980,Mar,1,107.48,0.2,28238.443,3137,3,35.141,-0.308614,3.4,620.0,Mediumfamilycar,New York
3,4/30/1980,1980,Apr,1,115.01,1.0,32615.149,1653,7,45.673,0.230596,4.2,702.8,Supperminicar,Illinois
4,5/31/1980,1980,May,1,98.72,0.2,23829.233,1319,4,52.997,0.138197,5.3,770.4,Smallfamiliycar,California


###  Dimensiones (filas, columnas)

In [70]:
filas, columnas = df.shape
print('filas:', filas, 'columnas:', columnas)

filas: 528 columnas: 15


###  Tipos de datos de las columnas

In [48]:
df.dtypes

Date                         object
Año                           int64
Mes                          object
Recesión                      int64
Confianza del Consumidor    float64
Seasonality_Weight          float64
Precio                      float64
Advertising_Expenditure       int64
Competition                   int64
GDP                         float64
Growth_Rate                 float64
unemployment_rate           float64
Ventas de Automóviles       float64
Vehicle_Type                 object
City                         object
dtype: object

### Nombre columnas

**Sintaxis**:

In [71]:
df.columns

Index(['Date', 'Year', 'Month', 'Recession', 'Consumer_Confidence',
       'Seasonality_Weight', 'Price', 'Advertising_Expenditure', 'Competition',
       'GDP', 'Growth_Rate', 'unemployment_rate', 'Automobile_Sales',
       'Vehicle_Type', 'City'],
      dtype='object')

### Media, mediana, percentil, max, min por columna

**Sintaxis**:

In [10]:
df.describe()

Unnamed: 0,Year,Recession,Consumer_Confidence,Seasonality_Weight,Price,Advertising_Expenditure,Competition,GDP,Growth_Rate,unemployment_rate,Automobile_Sales
count,528.0,528.0,528.0,528.0,528.0,528.0,528.0,528.0,528.0,528.0,528.0
mean,2001.5,0.214015,101.14017,0.575795,24964.991956,3067.456439,6.064394,40.073903,-0.242001,2.453977,2352.718068
std,12.710467,0.410526,10.601154,0.454477,4888.073433,1139.564637,1.96835,16.249714,0.861268,1.119019,1645.321284
min,1980.0,0.0,73.9,0.0,8793.663,1009.0,3.0,12.508,-4.227601,1.0,102.0
25%,1990.75,0.0,94.035,0.25,21453.3005,2083.5,4.0,27.2375,-0.574049,1.6,793.95
50%,2001.5,0.0,100.74,0.5,25038.6915,3072.0,6.0,39.2145,-0.013162,2.3,2182.6
75%,2012.25,0.0,108.24,0.75,28131.68475,4067.25,8.0,53.5065,0.388932,2.9,3614.8
max,2023.0,1.0,131.67,1.5,44263.657,4983.0,9.0,70.374,0.815074,6.0,21147.0


### N°Columnas, tipo, cantidad de NO nulos

**Sintaxis**:

In [72]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 528 entries, 0 to 527
Data columns (total 15 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   Date                     528 non-null    object 
 1   Year                     528 non-null    int64  
 2   Month                    528 non-null    object 
 3   Recession                528 non-null    int64  
 4   Consumer_Confidence      528 non-null    float64
 5   Seasonality_Weight       528 non-null    float64
 6   Price                    528 non-null    float64
 7   Advertising_Expenditure  528 non-null    int64  
 8   Competition              528 non-null    int64  
 9   GDP                      528 non-null    float64
 10  Growth_Rate              528 non-null    float64
 11  unemployment_rate        528 non-null    float64
 12  Automobile_Sales         528 non-null    float64
 13  Vehicle_Type             528 non-null    object 
 14  City                     5

### Cambiar un tipo de dato a otro

**Ejemplo**:

In [108]:
df['Price'] = df['Price'].astype('int64')
df.head()

Unnamed: 0,Date,Year,Month,Recession,Consumer_Confidence,Seasonality_Weight,Price,Advertising_Expenditure,Competition,GDP,Growth_Rate,unemployment_rate,Automobile_Sales,Vehicle_Type,City
0,1/31/1980,1980,Jan,1,108.24,0.5,27483,1558,7,60.223,0.01,5.4,456.0,Supperminicar,Georgia
1,2/29/1980,1980,Feb,1,98.75,0.75,24308,3048,4,45.986,-0.309594,4.8,555.9,Supperminicar,New York
2,3/31/1980,1980,Mar,1,107.48,0.2,28238,3137,3,35.141,-0.308614,3.4,620.0,Mediumfamilycar,New York
3,4/30/1980,1980,Apr,1,115.01,1.0,32615,1653,7,45.673,0.230596,4.2,702.8,Supperminicar,Illinois
4,5/31/1980,1980,May,1,98.72,0.2,23829,1319,4,52.997,0.138197,5.3,770.4,Smallfamiliycar,California


### Acceder a múltiples columnas

**Sintaxis**:

In [None]:
variable = df[['columna1', 'columna2']]

**Ejemplo**:

In [13]:
columnas = df[['Mes', 'Precio']]
print(columnas)

     Mes     Precio
0    Jan  27483.571
1    Feb  24308.678
2    Mar  28238.443
3    Apr  32615.149
4    May  23829.233
..   ...        ...
523  Aug  27852.993
524  Sep  21183.704
525  Oct  15975.589
526  Nov  16862.288
527  Dec  25240.425

[528 rows x 2 columns]


### Acceder | Mostrar a filas y columnas (iloc, loc)

#### Mostrar columna(s), filtrar por columna o fila(s)

**Sintaxis**

In [None]:
df.loc["A", "col1"]     # Valor en la fila "A" y columna "col1"
df.loc["A"]             # Toda la fila "A"
df.loc[:, "col1"]       # Toda la columna "col1"
df.loc["A":"C", "col1"] # Filas "A" a "C" en "col1"
df.loc[df["col1"] > 5]  # Filas donde col1 > 5

**Ejemplo 1**: Toda la fila $Mes$

In [27]:
df.loc[:,'Mes'] 

0      Enero
1        Feb
2        Mar
3        Dic
4        May
       ...  
523    Agost
524      Sep
525      Oct
526      Nov
527      Dec
Name: Mes, Length: 528, dtype: object

**Ejemplo 2**: Filas donde col1 == 'valor_fila'

In [35]:
df.loc[df['Vehicle_Type'] == 'CarroMediano']

Unnamed: 0,Date,Año,Mes,Recesión,Confianza consumidor,Seasonality_Weight,Precio,Advertising_Expenditure,Competition,GDP,Growth_Rate,unemployment_rate,Ventas automóviles,Vehicle_Type,City,animal
2,3/31/1980,1980,Mar,1,107.48,0.20,28238.443,3137,3.000000,35.141,-0.308614,3.4,620.0,CarroMediano,New York,perrito
5,6/30/1980,1980,Jun,1,105.55,0.75,23829.315,2573,5.000000,20.298,-1.610947,2.9,754.5,CarroMediano,Illinois,gato
10,11/30/1980,1980,Nov,1,102.36,0.07,22682.912,4939,5.000000,43.301,0.017990,2.6,763.0,CarroMediano,California,murcielago
11,12/31/1980,1980,Dec,1,102.33,0.25,22671.351,3892,6.000000,23.539,-0.839543,3.3,745.0,CarroMediano,New York,perrito
13,2/28/1981,1981,Feb,1,122.98,0.75,15433.599,3306,9.000000,30.891,-0.043993,5.8,574.3,CarroMediano,California,murcielago
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
505,2/28/2022,2022,Feb,0,82.04,0.75,22564.373,2708,4.000000,19.713,0.309035,1.5,925.6,CarroMediano,New York,gato
506,3/31/2022,2022,Mar,0,113.11,1.50,22038.030,4472,8.000000,36.491,0.459785,1.2,2258.9,CarroMediano,New York,perrito
507,4/30/2022,2022,Dic,0,106.94,1.00,20680.046,3969,5.889888,41.086,0.111839,2.1,863.2,CarroMediano,California,perrito
508,5/31/2022,2022,May,0,96.73,1.50,25242.608,4028,9.000000,35.949,-0.142897,2.5,1483.3,CarroMediano,Georgia,gato


**Ejemplo 2**: 

In [56]:
# Acceder a una columna específica cuando el mes es 'Enero'
df.loc[df['Mes']=='Enero', 'Precio']

0      27483.571
12     26209.811
24     22278.086
36     26044.318
48     19688.481
60     26299.414
72     35610.781
84     23737.159
97     21407.779
124    26718.091
136    22604.129
148    24820.870
160    20957.532
172    26480.601
184    26287.752
196    28955.160
206    34328.873
218    23773.059
230    28128.337
242    26070.469
254    18111.653
266    21135.874
278    21423.481
290    21037.396
301    25995.298
313    26404.959
325    20855.025
337    29127.082
349    19969.913
361    20872.514
364    27596.733
376    32255.718
388    21204.337
400    16434.327
412    25601.478
424    35303.740
436    23652.966
448    18477.652
460    24464.848
472    22347.494
484    24360.412
492    25386.842
504    21746.787
516    27504.586
Name: Precio, dtype: float64

**Ejemplo 3**: 

In [57]:
#Acceder a toda la fila de un mes específico
df.loc[df['Mes']=='Enero']

df.head(3) # Mostrar solo 3 filas

Unnamed: 0,Date,Año,Mes,Recesión,Confianza consumidor,Seasonality_Weight,Precio,Advertising_Expenditure,Competition,GDP,Growth_Rate,unemployment_rate,Ventas automóviles,Vehicle_Type,City,animal
0,1/31/1980,1980,Enero,1,108.24,0.5,27483.571,1558,5.889888,60.223,0.01,5.4,456.0,MiniCarro,Georgia,perrito
1,2/29/1980,1980,Feb,1,98.75,0.75,24308.678,3048,4.0,45.986,-0.309594,4.8,555.9,MiniCarro,New York,gato
2,3/31/1980,1980,Mar,1,107.48,0.2,28238.443,3137,3.0,35.141,-0.308614,3.4,620.0,CarroMediano,New York,perrito


#### Mostrar columna(s), filas usando índice con .iloc

**Sintaxis**:

In [None]:
df.iloc[fila, columna]

In [None]:
df.iloc[0, 1]       # Valor en la fila 0 y columna 1
df.iloc[0]          # Toda la fila 0
df.iloc[:, 1]       # Toda la columna 1
df.iloc[0:3, 1]     # Filas 0 a 2 en la columna 1
df.iloc[[0, 2, 4]]  # Filas 0, 2 y 4

**Ejemplo 1**: 

In [40]:
# Filas 0 a 5 en la columna Mes
df.iloc[0:5, 2]

0    Enero
1      Feb
2      Mar
3      Dic
4      May
Name: Mes, dtype: object

### Valores únicos por columna : .unique()

**Sintaxis**:

In [None]:
#Valores únicos por columna 
df['columna1'].unique()

#Contar valores unicos 
df['columna1'].nunique()

**Ejemplo 1**: Valores únicos por columna 

In [37]:
#Valores únicos por columna 
df['City'].unique()

array(['Georgia', 'New York', 'Illinois', 'California'], dtype=object)

**Ejemplo 2**: Contar valores unicos por columna

In [38]:
#Contar valores unicos 
df['City'].nunique()

4

### Mostrar cantidad de columnas y filas con len()

**Sintaxis**:

In [None]:
#Cantidad de filas: 
len(df)

In [None]:
#Cantidad de columnas: 
len(df.columns)

###  Seleccionar solo las columnas numéricas

### Conteo de valores

#### value_counts() cuenta la cantidad de veces (FRECUENCIA) que aparece cada valor único en una columna.

* ✅ **Útil cuando**:

    * Quieres ver la frecuencia de valores únicos en una columna.
    * Necesitas analizar distribuciones de datos categóricos.
    * Quieres identificar valores más comunes o atípicos (outliers).

* ❌ **No se usa cuando**:

    * *Quieres contar valores en todas las columnas a la vez* → Usa df.apply(pd.Series.value_counts).
    * Necesitas frecuencias acumuladas → Usa cumsum().
    * Quieres contar elementos con múltiples condiciones → Usa groupby() + size().

**Sintaxis**

In [None]:
df['columna'].value_counts(normalize=False, sort=True, ascending=False, dropna=True)

#normalize=False → Si True, devuelve proporciones en lugar de conteo.
#sort=True → Ordena de mayor a menor.
#ascending=False → Si True, muestra los menos frecuentes primero.
#dropna=True → Si False, incluye valores NaN en el conteo.

**Ejemplo 1**: Contamos cuántas veces aparece cada Mes

In [159]:
Conteo= df['Mes'].value_counts(normalize=False, sort=True, ascending=False, dropna=True)
print(Conteo)

Mes
Enero    44
Feb      44
Mar      44
Dic      44
May      44
Jun      44
Jul      44
Agost    44
Sep      44
Oct      44
Nov      44
Dec      44
Name: count, dtype: int64


**Ejemplo 2**: Contamos cuántas veces aparece cada el tipo de vehículo

In [158]:
Conteo= df['Vehicle_Type'].value_counts(normalize=False, sort=True, ascending=False, dropna=True)
print(Conteo)

Vehicle_Type
CarroMediano     166
CarroFamiliar    122
Sports            94
MiniCarro         76
Executivecar      70
Name: count, dtype: int64


##### Si en lugar de conteos quieres proporciones (%), usa normalize=True

**Ejemplo 1**:

In [161]:
df['Vehicle_Type'].value_counts(normalize=True) * 100
# Muestra el porcentaje de cada valor en la columna

Vehicle_Type
CarroMediano     31.439394
CarroFamiliar    23.106061
Sports           17.803030
MiniCarro        14.393939
Executivecar     13.257576
Name: proportion, dtype: float64

## Limpieza de datos 

### Renombrar columnas

**Sintaxis**

In [None]:
#Cambiar el nombre de columnas específicas

df.rename(columns={'columna1': 'nueva_columna1', 
                   'columna2': 'nueva_columna2'}, inplace=True)

**Ejemplo**:

In [110]:
df.rename(columns={'Year': 'Año', 
                   'Recession': 'Recesión', 
                   'Month':'Mes',
                   'Price': 'Precio',
                   'Consumer_Confidence': 'Confianza consumidor', 
                   'Automobile_Sales': 'Ventas automóviles'}, inplace=True) #inplace=True Aplica los cambios directamente en df
df.head()

Unnamed: 0,Date,Año,Mes,Recesión,Confianza consumidor,Seasonality_Weight,Precio,Advertising_Expenditure,Competition,GDP,Growth_Rate,unemployment_rate,Ventas automóviles,Vehicle_Type,City
0,1/31/1980,1980,Jan,1,108.24,0.5,27483,1558,7,60.223,0.01,5.4,456.0,Supperminicar,Georgia
1,2/29/1980,1980,Feb,1,98.75,0.75,24308,3048,4,45.986,-0.309594,4.8,555.9,Supperminicar,New York
2,3/31/1980,1980,Mar,1,107.48,0.2,28238,3137,3,35.141,-0.308614,3.4,620.0,Mediumfamilycar,New York
3,4/30/1980,1980,Apr,1,115.01,1.0,32615,1653,7,45.673,0.230596,4.2,702.8,Supperminicar,Illinois
4,5/31/1980,1980,May,1,98.72,0.2,23829,1319,4,52.997,0.138197,5.3,770.4,Smallfamiliycar,California


### Añadir una columna 

In [111]:
import random
import numpy as np

lista = ['gato','perrito','murcielago']
animales = np.random.choice(lista, size=len(df))
df['animal']=animales
df['random_values'] = [random.randint(1, 529) for _ in range(len(df))]
df.head()

Unnamed: 0,Date,Año,Mes,Recesión,Confianza consumidor,Seasonality_Weight,Precio,Advertising_Expenditure,Competition,GDP,Growth_Rate,unemployment_rate,Ventas automóviles,Vehicle_Type,City,animal,random_values
0,1/31/1980,1980,Jan,1,108.24,0.5,27483,1558,7,60.223,0.01,5.4,456.0,Supperminicar,Georgia,murcielago,422
1,2/29/1980,1980,Feb,1,98.75,0.75,24308,3048,4,45.986,-0.309594,4.8,555.9,Supperminicar,New York,murcielago,70
2,3/31/1980,1980,Mar,1,107.48,0.2,28238,3137,3,35.141,-0.308614,3.4,620.0,Mediumfamilycar,New York,murcielago,419
3,4/30/1980,1980,Apr,1,115.01,1.0,32615,1653,7,45.673,0.230596,4.2,702.8,Supperminicar,Illinois,perrito,266
4,5/31/1980,1980,May,1,98.72,0.2,23829,1319,4,52.997,0.138197,5.3,770.4,Smallfamiliycar,California,murcielago,112


### Eliminar una Columna

**Ejemplo**:

In [112]:
eliminar_colum = df.drop('random_values', axis=1, inplace=True)
df.head()

Unnamed: 0,Date,Año,Mes,Recesión,Confianza consumidor,Seasonality_Weight,Precio,Advertising_Expenditure,Competition,GDP,Growth_Rate,unemployment_rate,Ventas automóviles,Vehicle_Type,City,animal
0,1/31/1980,1980,Jan,1,108.24,0.5,27483,1558,7,60.223,0.01,5.4,456.0,Supperminicar,Georgia,murcielago
1,2/29/1980,1980,Feb,1,98.75,0.75,24308,3048,4,45.986,-0.309594,4.8,555.9,Supperminicar,New York,murcielago
2,3/31/1980,1980,Mar,1,107.48,0.2,28238,3137,3,35.141,-0.308614,3.4,620.0,Mediumfamilycar,New York,murcielago
3,4/30/1980,1980,Apr,1,115.01,1.0,32615,1653,7,45.673,0.230596,4.2,702.8,Supperminicar,Illinois,perrito
4,5/31/1980,1980,May,1,98.72,0.2,23829,1319,4,52.997,0.138197,5.3,770.4,Smallfamiliycar,California,murcielago


### Añadir | cambiar nombre a las columnas

**Sintaxis**:

In [None]:
df.columns = headers  #donde headers = [ ‘column_name1’, ‘column_name2’]

**Ejemplo**:

In [63]:
import pandas as pd

#Datos
data = [[1, 'A'], [2, 'B']]
df = pd.DataFrame(data)

# Asignar nombre a las columnas
df.columns = ['ID', 'Label']
print(df)

#Cambiar nombre de las columnas
df.columns=['Product_id', 'Product_name']
print('\n cambiar nombre: \n', df)

   ID Label
0   1     A
1   2     B

 cambiar nombre: 
    Product_id Product_name
0           1            A
1           2            B


### Reemplazar valores dentro del DataFrame

#### Reemplazar valores específicos dentro de una columna

**Sintaxis**

In [None]:
df['columna'] = df['columna'].replace('valor_viejo', 'valor_nuevo')

**Ejemplo**:

In [113]:
import numpy as np

#Reemplazar un valor específico dentro de la columna
df['Competition']=df['Competition'].replace(7, np.nan)

#Reemplazar varios valores dentro de la columna
df['Mes']=df['Mes'].replace({'Jan':'Enero', 
                             'Aug': 'Agost',
                            'Apr':np.nan}) #reemplazar abril por NaN
df.head(15)

Unnamed: 0,Date,Año,Mes,Recesión,Confianza consumidor,Seasonality_Weight,Precio,Advertising_Expenditure,Competition,GDP,Growth_Rate,unemployment_rate,Ventas automóviles,Vehicle_Type,City,animal
0,1/31/1980,1980,Enero,1,108.24,0.5,27483,1558,,60.223,0.01,5.4,456.0,Supperminicar,Georgia,murcielago
1,2/29/1980,1980,Feb,1,98.75,0.75,24308,3048,4.0,45.986,-0.309594,4.8,555.9,Supperminicar,New York,murcielago
2,3/31/1980,1980,Mar,1,107.48,0.2,28238,3137,3.0,35.141,-0.308614,3.4,620.0,Mediumfamilycar,New York,murcielago
3,4/30/1980,1980,,1,115.01,1.0,32615,1653,,45.673,0.230596,4.2,702.8,Supperminicar,Illinois,perrito
4,5/31/1980,1980,May,1,98.72,0.2,23829,1319,4.0,52.997,0.138197,5.3,770.4,Smallfamiliycar,California,murcielago
5,6/30/1980,1980,Jun,1,105.55,0.75,23829,2573,5.0,20.298,-1.610947,2.9,754.5,Mediumfamilycar,Illinois,gato
6,7/31/1980,1980,Jul,1,82.45,0.5,32896,2828,3.0,34.585,0.413098,2.9,729.6,Supperminicar,Illinois,gato
7,8/31/1980,1980,Agost,1,98.76,0.25,28837,2917,3.0,55.65,0.378527,3.0,734.9,Supperminicar,New York,gato
8,9/30/1980,1980,Sep,1,87.68,0.07,22652,1138,3.0,33.308,-0.67077,5.2,705.6,Smallfamiliycar,California,gato
9,10/31/1980,1980,Oct,1,101.45,0.0,27712,4582,5.0,42.522,0.216688,4.4,609.7,Smallfamiliycar,New York,murcielago


#### Reemplazar múltiples valores en todo el DataFrame

**Sintaxis**:

In [None]:
df['columna'] = df['columna'].replace('valor_viejo', 'valor_nuevo')

**Ejemplo**:

In [114]:
df = df.replace(['Supperminicar', 'Smallfamiliycar', 'Mediumfamilycar'], ['MiniCarro', 'CarroFamiliar', 'CarroMediano'])
df.head()

Unnamed: 0,Date,Año,Mes,Recesión,Confianza consumidor,Seasonality_Weight,Precio,Advertising_Expenditure,Competition,GDP,Growth_Rate,unemployment_rate,Ventas automóviles,Vehicle_Type,City,animal
0,1/31/1980,1980,Enero,1,108.24,0.5,27483,1558,,60.223,0.01,5.4,456.0,MiniCarro,Georgia,murcielago
1,2/29/1980,1980,Feb,1,98.75,0.75,24308,3048,4.0,45.986,-0.309594,4.8,555.9,MiniCarro,New York,murcielago
2,3/31/1980,1980,Mar,1,107.48,0.2,28238,3137,3.0,35.141,-0.308614,3.4,620.0,CarroMediano,New York,murcielago
3,4/30/1980,1980,,1,115.01,1.0,32615,1653,,45.673,0.230596,4.2,702.8,MiniCarro,Illinois,perrito
4,5/31/1980,1980,May,1,98.72,0.2,23829,1319,4.0,52.997,0.138197,5.3,770.4,CarroFamiliar,California,murcielago


### Contar valores nulos

#### Valores nulos en DataFrame

**Ejemplo**:

In [79]:
df.isnull().sum().sum()

np.int64(127)

#### Valores nulos por columna

**Ejemplo**:

In [80]:
# Contar los valores nulos por columna
df.isnull().sum()

Date                        0
Año                         0
Mes                        44
Recesión                    0
Confianza consumidor        0
Seasonality_Weight          0
Precio                      0
Advertising_Expenditure     0
Competition                83
GDP                         0
Growth_Rate                 0
unemployment_rate           0
Ventas automóviles          0
Vehicle_Type                0
City                        0
animal                      0
dtype: int64

### Contar valores NO nulos

**Ejemplo**:

In [81]:
# Contar los valores no nulos por columna
df.notnull().sum()

Date                       528
Año                        528
Mes                        484
Recesión                   528
Confianza consumidor       528
Seasonality_Weight         528
Precio                     528
Advertising_Expenditure    528
Competition                445
GDP                        528
Growth_Rate                528
unemployment_rate          528
Ventas automóviles         528
Vehicle_Type               528
City                       528
animal                     528
dtype: int64

### Rellenar valores nulos (NaN)

**Sintaxis**:

In [None]:
df['columna'] = df['columna'].fillna(valor)

**Ejemplo**:

In [115]:
#Rellenar valor NaN por Dic en la columna mes
df['Mes'] = df['Mes'].fillna('Dic')
df.head()

Unnamed: 0,Date,Año,Mes,Recesión,Confianza consumidor,Seasonality_Weight,Precio,Advertising_Expenditure,Competition,GDP,Growth_Rate,unemployment_rate,Ventas automóviles,Vehicle_Type,City,animal
0,1/31/1980,1980,Enero,1,108.24,0.5,27483,1558,,60.223,0.01,5.4,456.0,MiniCarro,Georgia,murcielago
1,2/29/1980,1980,Feb,1,98.75,0.75,24308,3048,4.0,45.986,-0.309594,4.8,555.9,MiniCarro,New York,murcielago
2,3/31/1980,1980,Mar,1,107.48,0.2,28238,3137,3.0,35.141,-0.308614,3.4,620.0,CarroMediano,New York,murcielago
3,4/30/1980,1980,Dic,1,115.01,1.0,32615,1653,,45.673,0.230596,4.2,702.8,MiniCarro,Illinois,perrito
4,5/31/1980,1980,May,1,98.72,0.2,23829,1319,4.0,52.997,0.138197,5.3,770.4,CarroFamiliar,California,murcielago


In [116]:
# Contar los valores no nulos por columna
df.isnull().sum()

Date                        0
Año                         0
Mes                         0
Recesión                    0
Confianza consumidor        0
Seasonality_Weight          0
Precio                      0
Advertising_Expenditure     0
Competition                83
GDP                         0
Growth_Rate                 0
unemployment_rate           0
Ventas automóviles          0
Vehicle_Type                0
City                        0
animal                      0
dtype: int64

In [None]:
#Rellenar valor NaN por la media en la columna 'Competition'

In [117]:
df['Competition']=df['Competition'].fillna(df['Competition'].mean())
df.dtypes

Date                        object
Año                          int64
Mes                         object
Recesión                     int64
Confianza consumidor       float64
Seasonality_Weight         float64
Precio                       int64
Advertising_Expenditure      int64
Competition                float64
GDP                        float64
Growth_Rate                float64
unemployment_rate          float64
Ventas automóviles         float64
Vehicle_Type                object
City                        object
animal                      object
dtype: object

In [118]:
df.head()

Unnamed: 0,Date,Año,Mes,Recesión,Confianza consumidor,Seasonality_Weight,Precio,Advertising_Expenditure,Competition,GDP,Growth_Rate,unemployment_rate,Ventas automóviles,Vehicle_Type,City,animal
0,1/31/1980,1980,Enero,1,108.24,0.5,27483,1558,5.889888,60.223,0.01,5.4,456.0,MiniCarro,Georgia,murcielago
1,2/29/1980,1980,Feb,1,98.75,0.75,24308,3048,4.0,45.986,-0.309594,4.8,555.9,MiniCarro,New York,murcielago
2,3/31/1980,1980,Mar,1,107.48,0.2,28238,3137,3.0,35.141,-0.308614,3.4,620.0,CarroMediano,New York,murcielago
3,4/30/1980,1980,Dic,1,115.01,1.0,32615,1653,5.889888,45.673,0.230596,4.2,702.8,MiniCarro,Illinois,perrito
4,5/31/1980,1980,May,1,98.72,0.2,23829,1319,4.0,52.997,0.138197,5.3,770.4,CarroFamiliar,California,murcielago


### Identificar filas duplicadas en columna(s)

**Sintaxis**:

- El método duplicated() se usa para identificar filas duplicadas en un DataFrame.
- Devuelve una Serie booleana donde **True** indica que la fila es un duplicado de una fila anterior.

**Ejemplo 1**:

In [119]:
# Identificar duplicados en todas las columnas
df['is_duplicate'] = df.duplicated() 
df.head()

Unnamed: 0,Date,Año,Mes,Recesión,Confianza consumidor,Seasonality_Weight,Precio,Advertising_Expenditure,Competition,GDP,Growth_Rate,unemployment_rate,Ventas automóviles,Vehicle_Type,City,animal,is_duplicate
0,1/31/1980,1980,Enero,1,108.24,0.5,27483,1558,5.889888,60.223,0.01,5.4,456.0,MiniCarro,Georgia,murcielago,False
1,2/29/1980,1980,Feb,1,98.75,0.75,24308,3048,4.0,45.986,-0.309594,4.8,555.9,MiniCarro,New York,murcielago,False
2,3/31/1980,1980,Mar,1,107.48,0.2,28238,3137,3.0,35.141,-0.308614,3.4,620.0,CarroMediano,New York,murcielago,False
3,4/30/1980,1980,Dic,1,115.01,1.0,32615,1653,5.889888,45.673,0.230596,4.2,702.8,MiniCarro,Illinois,perrito,False
4,5/31/1980,1980,May,1,98.72,0.2,23829,1319,4.0,52.997,0.138197,5.3,770.4,CarroFamiliar,California,murcielago,False


**Ejemplo 2**:

In [99]:
#Identificar duplicados en la columna especifica, Mes
df['is_duplicate_mes'] = df.duplicated(subset='Mes', keep=False)
df.head()

Unnamed: 0,Date,Año,Mes,Recesión,Confianza consumidor,Seasonality_Weight,Precio,Advertising_Expenditure,Competition,GDP,Growth_Rate,unemployment_rate,Ventas automóviles,Vehicle_Type,City,animal,is_duplicate,is_duplicate_mes
0,1/31/1980,1980,Enero,1,108.24,0.5,27483,1558,5.889888,60.223,0.01,5.4,456.0,MiniCarro,Georgia,gato,False,True
1,2/29/1980,1980,Feb,1,98.75,0.75,24308,3048,4.0,45.986,-0.309594,4.8,555.9,MiniCarro,New York,murcielago,False,True
2,3/31/1980,1980,Mar,1,107.48,0.2,28238,3137,3.0,35.141,-0.308614,3.4,620.0,CarroMediano,New York,murcielago,False,True
3,4/30/1980,1980,Dic,1,115.01,1.0,32615,1653,5.889888,45.673,0.230596,4.2,702.8,MiniCarro,Illinois,perrito,False,True
4,5/31/1980,1980,May,1,98.72,0.2,23829,1319,4.0,52.997,0.138197,5.3,770.4,CarroFamiliar,California,gato,False,True


### Eliminar filas duplicadas en columna(s)

**Sintaxis**:
- *El método drop_duplicates()*:
  * se utiliza para eliminar filas duplicadas en el DataFrame, dejando solo la primera (o última) aparición de cada duplicado.

In [None]:
df.drop_duplicates(subset=None, keep='first', inplace=False)

#subset: (opcional) Especifica las columnas a considerar para detectar duplicados.
#keep : 'first': Mantiene la primera aparición y elimina las posteriores.
#keep : 'last': Mantiene la última aparición y elimina las anteriores.
#False: Elimina todas las filas duplicadas.

**Ejemplo 1**:

In [121]:
#keep : 'first': Mantiene la primera aparición y elimina las posteriores.

eliminar_duplicados = df.drop_duplicates(subset='animal', keep='first')
print(eliminar_duplicados)

        Date   Año    Mes  Recesión  Confianza consumidor  Seasonality_Weight  \
0  1/31/1980  1980  Enero         1                108.24                0.50   
3  4/30/1980  1980    Dic         1                115.01                1.00   
5  6/30/1980  1980    Jun         1                105.55                0.75   

   Precio  Advertising_Expenditure  Competition     GDP  Growth_Rate  \
0   27483                     1558     5.889888  60.223     0.010000   
3   32615                     1653     5.889888  45.673     0.230596   
5   23829                     2573     5.000000  20.298    -1.610947   

   unemployment_rate  Ventas automóviles  Vehicle_Type      City      animal  \
0                5.4               456.0     MiniCarro   Georgia  murcielago   
3                4.2               702.8     MiniCarro  Illinois     perrito   
5                2.9               754.5  CarroMediano  Illinois        gato   

   is_duplicate  
0         False  
3         False  
5         F

In [122]:
df.head()

Unnamed: 0,Date,Año,Mes,Recesión,Confianza consumidor,Seasonality_Weight,Precio,Advertising_Expenditure,Competition,GDP,Growth_Rate,unemployment_rate,Ventas automóviles,Vehicle_Type,City,animal,is_duplicate
0,1/31/1980,1980,Enero,1,108.24,0.5,27483,1558,5.889888,60.223,0.01,5.4,456.0,MiniCarro,Georgia,murcielago,False
1,2/29/1980,1980,Feb,1,98.75,0.75,24308,3048,4.0,45.986,-0.309594,4.8,555.9,MiniCarro,New York,murcielago,False
2,3/31/1980,1980,Mar,1,107.48,0.2,28238,3137,3.0,35.141,-0.308614,3.4,620.0,CarroMediano,New York,murcielago,False
3,4/30/1980,1980,Dic,1,115.01,1.0,32615,1653,5.889888,45.673,0.230596,4.2,702.8,MiniCarro,Illinois,perrito,False
4,5/31/1980,1980,May,1,98.72,0.2,23829,1319,4.0,52.997,0.138197,5.3,770.4,CarroFamiliar,California,murcielago,False


### Calcular valores atípicos | outliers

**Valores atípicos**: 
* Datos que se alejan significativamente del resto de los valores en un conjunto de datos.
* Un valor atípico (outlier) es un número dentro de un conjunto de datos que es demasiado grande o demasiado pequeño en comparación con el resto de los valores.

#### Cómo calcular valores atípicos :

#####  Método de rango intercuartil (IQR - Interquartile Range)

* Este método usa cuartiles, que dividen los datos en cuatro partes.
* Los valores atípicos son aquellos que están muy lejos del centro de los datos.


**📌Pasos**:

* 1️⃣ Calcular el primer cuartil (Q1) → El 25% de los datos más bajos
* 2️⃣ Calcular el tercer cuartil (Q3) → El 75% de los datos más bajos
* 3️⃣ Calcular el rango intercuartil $(IQR):IQR=Q3−Q1$
* 4️⃣ Definir los límites para detectar outliers:
    * Límite inferior:$Q1-1.5×IQR$
    * Límite superior:$Q3+1.5×IQR$
* 5️⃣ Los valores fuera de estos límites son outliers.

**Ejemplo**: Calcular valores atipicos para todas las columnas

In [182]:
import pandas as pd

# Cargar el dataset
url = 'https://cf-courses-data.s3.us.cloud-object-storage.appdomain.cloud/IBMDeveloperSkillsNetwork-DV0101EN-SkillsNetwork/Data%20Files/historical_automobile_sales.csv'
df = pd.read_csv(url)

# Seleccionar solo las columnas numéricas
df_numerico = df.select_dtypes(include=['number'])

# Calcular los valores atípicos para todas las columnas
for columna in df_numerico.columns:
    Q1 = df_numerico[columna].quantile(0.25)
    Q3 = df_numerico[columna].quantile(0.75)
    IQR = Q3 - Q1

    limite_inferior = Q1 - 1.5 * IQR
    limite_superior = Q3 + 1.5 * IQR

    # Filtrar valores atípicos
    valores_atipicos = df_numerico[
        (df_numerico[columna] < limite_inferior) |
        (df_numerico[columna] > limite_superior)
    ]

    # Mostrar valores atípicos si existen
    if not valores_atipicos.empty:
        print(f'\nValores atípicos en "{columna}":')
        print(valores_atipicos[columna])


Valores atípicos en "Recession":
0      1
1      1
2      1
3      1
4      1
      ..
108    1
109    1
110    1
111    1
112    1
Name: Recession, Length: 113, dtype: int64

Valores atípicos en "Consumer_Confidence":
183    131.67
301    131.05
Name: Consumer_Confidence, dtype: float64

Valores atípicos en "Price":
82      8793.663
229    38600.846
259    44263.657
482    40394.404
Name: Price, dtype: float64

Valores atípicos en "Growth_Rate":
42    -2.432742
63    -2.763376
68    -2.540472
134   -2.482212
146   -3.775633
148   -2.194814
160   -2.373932
168   -2.585880
176   -2.964902
184   -2.057658
245   -2.363745
295   -2.135671
302   -2.182868
329   -2.988030
335   -3.866632
347   -4.227601
373   -3.041332
381   -2.471810
420   -2.131685
428   -2.315878
430   -3.809150
445   -2.869959
451   -3.181291
463   -2.259954
501   -3.565458
511   -2.595748
521   -2.493529
525   -2.046169
Name: Growth_Rate, dtype: float64

Valores atípicos en "unemployment_rate":
0      5.4
4      5.3
8 

## Ordenar un DataFrame

### Crear tabla dinámica : ordenar un DataFrame

**Diferencias clave:**

| **Función**        | **Agregación** | **Manejo de duplicados**                     | **Uso principal**                             |
|--------------------|----------------|----------------------------------------------|----------------------------------------------|
| `pivot()`          | No              | No maneja duplicados; arroja error si hay     | Reorganizar datos cuando no hay duplicados   |
| `pivot_table()`    | Sí              | Maneja duplicados con funciones de agregación| Resumir datos con agregación (suma, media, etc.) |

#### pivot_table() : agrupar datos con valores duplicados,realizar operaciones: sum(), mean()

- **Casos de uso**:
    * **Resumen de datos agregados**: Es ideal cuando necesitas agrupar datos y realizar operaciones de agregación, como la suma de valores o el cálculo del promedio.
    * **Manejo de valores duplicados**: Si hay filas duplicadas en los datos, pivot_table() puede resolverlo agregando los valores usando una función como sum(), mean(), etc.

**Sintaxis**:

In [None]:
DataFrame.pivot_table(values=None, index=None, columns=None, aggfunc='mean', fill_value=None, margins=False, dropna=True, margins_name='All')

#values: La columna cuyos valores se usarán para llenar la tabla resultante.
#index: La columna que se usará para las nuevas filas (índice).
#aggfunc: Función de agregación a aplicar (por defecto es 'mean', pero puede ser sum, count, etc.).
#fill_value: Valor para reemplazar los valores NaN (opcional).
#margins: Si se debe agregar una fila y columna con la agregación total.
#dropna: Si se deben excluir las columnas que contienen solo NaN.
#margins_name: Nombre para la fila y columna de totales.

**Ejemplo 1**:

In [129]:
# # Crear una tabla dinámica con la suma de 'Vehicle_Type' por 'Año' y 'Ventas automóviles' 
ordenar_dataframe= df.pivot_table(index='Vehicle_Type', columns='Año', values=['Ventas automóviles'], aggfunc='sum')
ordenar_dataframe.head()

Unnamed: 0_level_0,Ventas automóviles,Ventas automóviles,Ventas automóviles,Ventas automóviles,Ventas automóviles,Ventas automóviles,Ventas automóviles,Ventas automóviles,Ventas automóviles,Ventas automóviles,Ventas automóviles,Ventas automóviles,Ventas automóviles,Ventas automóviles,Ventas automóviles,Ventas automóviles,Ventas automóviles,Ventas automóviles,Ventas automóviles,Ventas automóviles,Ventas automóviles
Año,1980,1981,1982,1983,1984,1985,1986,1987,1988,1989,...,2014,2015,2016,2017,2018,2019,2020,2021,2022,2023
Vehicle_Type,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2,Unnamed: 21_level_2
CarroFamiliar,2085.7,3192.1,2408.9,5030.6,6175.8,13421.0,2727.0,6328.6,4602.5,11561.3,...,6344.6,9018.4,6016.9,3207.1,15852.5,12586.4,4490.4,9721.0,2629.4,10658.5
CarroMediano,2882.5,1885.2,5062.9,12845.6,12299.7,6732.2,9285.1,860.8,14577.0,15321.6,...,9568.3,16861.2,5585.54,17471.4,8299.9,9092.7,6423.7,5176.2,6732.5,
Executivecar,,,,4120.2,6261.6,10892.0,3163.0,6676.0,7414.5,,...,,6626.1,,1343.8,5496.8,8730.6,11169.1,2860.4,10571.3,1579.6
MiniCarro,3179.2,2523.6,,4677.1,8415.9,,4178.5,1922.6,4050.1,3293.6,...,11756.0,6234.1,6207.0,7046.4,4865.8,,,4529.6,,6416.1
Sports,,,102.0,7998.7,2514.0,7068.4,8740.0,11670.0,6249.9,8794.8,...,12686.0,1487.0,15860.2,1241.1,3652.3,3115.1,6178.8,15105.3,4596.5,12401.0


**Ejemplo 2**:

In [133]:
#Resumen de ventas por producto y mes (usando mean por defecto)
ordenar_dataframe= df.pivot_table(index='Mes', columns='Año', values='Ventas automóviles')
print(ordenar_dataframe)

Año     1980   1981   1982    1983    1984    1985    1986    1987    1988  \
Mes                                                                          
Agost  734.9  779.5  552.3  4120.2  3141.2  2511.6  4661.6  4160.3  1913.7   
Dec    745.0  762.0  744.6  1436.7  4520.7  4207.4  3455.0  1922.6  2120.6   
Dic    702.8  657.1  617.3  3240.4  2514.0  2861.0  1345.2   860.8  2131.5   
Enero  456.0  325.0  466.0   589.0  3284.7  3505.1  1845.3  1702.7  1657.1   
Feb    555.9  574.3  614.4  3799.1  3844.2  4041.6  2517.7  1255.7  2833.1   
Jul    729.6  638.2  738.8   426.5  4633.4  2445.3  2727.0  4460.1  4050.1   
Jun    754.5  677.6  726.7  4769.8  2194.6  3678.1   797.3  3495.1  4224.3   
Mar    620.0  654.0  751.4  3533.5  3822.1  2563.9   645.2  1260.0  2924.3   
May    770.4  752.9  763.9   908.1   851.8  3336.3  2778.2  1883.7  3663.4   
Nov    763.0  558.0  102.0  2962.9  2182.8   832.0  2365.7  1831.1  1997.8   
Oct    609.7  648.1  720.2  4686.4  1740.9  4702.3  3939.8  1038

#### pivot() : reorganizar los datos, transformando las columnas en filas o viceversa

**pivot()**: NO realiza agregaciones, por lo que solo funciona cuando no hay duplicados en los datos.

**Casos de uso**:
 * Útil para convertir los valores de una columna en varias columnas sin necesidad de realizar cálculos.

**Sintaxis**:

In [None]:
df.pivot(index=None, columns=None, values=None)

#index: Columna que se convertirá en el índice del nuevo DataFrame.
#columns: Columna que se convertirá en las nuevas columnas del DataFrame.
#values: Columna que se convertirá en los valores de la tabla reorganizada.

### Combinar dos DataFrames

* **Si los índices coinciden** → join() es más simple y rápido.
* **Si necesitas más control o unir por columnas** → merge() es la mejor opción.


| **Caso**  | **Usa `join()`** | **Usa `merge()`** |
|-----------|-----------------|-----------------|
| 🔹 **Unir por índice**  | ✅ Sí  | ❌ No  |
| 🔹 **Unir por columna sin modificar índices**  | ❌ No  | ✅ Sí  |
| 🔹 **Múltiples columnas clave para unir**  | ❌ No  | ✅ Sí  |
| 🔹 **Simular SQL JOINs (`LEFT`, `RIGHT`, etc.)**  | ✅ Pero limitado | ✅ Más flexible  |


#### Combinar DataFrames basado en una columna en común

- La función **pd.merge()** en Pandas se usa para combinar dos DataFrames basándose en una columna común, similar a una operación JOIN en SQL.
- Cuanto **NO USAR**:
  * *Las columnas claves tienen valores duplicados* descontroladamente → Puede causar que la tabla resultante sea enorme.
  * *No hay una columna común* clara → Si no hay una clave de unión obvia, merge() puede dar resultados confusos.
  * *Se necesita concatenar filas*, no unir columnas → Para esto usa pd.concat() en lugar de merge().

**Sintaxis**:

In [None]:
pd.merge(left, right, on='columna_común', how='tipo_de_join')

#left: Primer DataFrame.
#right: Segundo DataFrame.
#on: Columna en común sobre la que se realizará la unión.
#how: Tipo de unión (por defecto es inner):

In [None]:
#INNER JOIN (solo coincidencias)
pd.merge(df1, df2, on='columna', how='inner')   #'inner' → Devuelve solo las coincidencias (equivalente a INNER JOIN en SQL).

#LEFT JOIN (todo df1, solo coincidencias de df2) 
pd.merge(df1, df2, on='columna', how='left')    #'left' → Devuelve todas las filas del DataFrame izquierdo, y las del derecho solo si hay coincidencia (LEFT JOIN).

#RIGHT JOIN (todo df2, solo coincidencias de df1)
pd.merge(df1, df2, on='columna', how='right')   #'right' → Devuelve todas las filas del DataFrame derecho, y las del izquierdo solo si hay coincidencia (RIGHT JOIN).

#OUTER JOIN (todas las filas de ambos)
pd.merge(df1, df2, on='columna', how='outer')   #outer' → Devuelve todas las filas de ambos DataFrames (FULL OUTER JOIN), colocando NaN en los valores faltantes.

**Ejemplo 1**: 

1) *Datos de entrada*:

In [144]:
#import pandas as pd

# Primer DataFrame (ventas de automóviles)
df_ventas = pd.DataFrame({
    'City': ['A', 'A', 'B', 'B', 'A', 'B'],
    'Año': [2020, 2020, 2021, 2021, 2020, 2021],
    'Ventas automóviles': [100, 150, 200, 250, 130, 220]
})
print('ventas de automóviles: \n', df_ventas)

# Segundo DataFrame (información extra de las ciudades)
df_info = pd.DataFrame({
    'City': ['A', 'B', 'C'],
    'País': ['México', 'Argentina', 'Brasil'],
    'Población': [500000, 700000, 1200000]
})
print('\n ciudades: \n', df_info)

ventas de automóviles: 
   City   Año  Ventas automóviles
0    A  2020                 100
1    A  2020                 150
2    B  2021                 200
3    B  2021                 250
4    A  2020                 130
5    B  2021                 220

 ciudades: 
   City       País  Población
0    A     México     500000
1    B  Argentina     700000
2    C     Brasil    1200000


2) *Unir con INNER JOIN (valores comunes en ambas tablas)*:

In [137]:
df_inner = pd.merge(df_ventas, df_info, on='City', how='inner')
print(df_inner)

  City   Año  Ventas automóviles       País  Población
0    A  2020                 100     México     500000
1    A  2020                 150     México     500000
2    B  2021                 200  Argentina     700000
3    B  2021                 250  Argentina     700000
4    A  2020                 130     México     500000
5    B  2021                 220  Argentina     700000


3. *Unir con LEFT JOIN (conserva todas las filas de df_ventas)*

In [145]:
df_left = pd.merge(df_ventas, df_info, on='City', how='left')
print(df_left)

  City   Año  Ventas automóviles       País  Población
0    A  2020                 100     México     500000
1    A  2020                 150     México     500000
2    B  2021                 200  Argentina     700000
3    B  2021                 250  Argentina     700000
4    A  2020                 130     México     500000
5    B  2021                 220  Argentina     700000


4. *Unir con RIGHT JOIN (conserva todas las filas de df_info)*

In [146]:
df_right = pd.merge(df_ventas, df_info, on='City', how='right')
print(df_right)

  City     Año  Ventas automóviles       País  Población
0    A  2020.0               100.0     México     500000
1    A  2020.0               150.0     México     500000
2    A  2020.0               130.0     México     500000
3    B  2021.0               200.0  Argentina     700000
4    B  2021.0               250.0  Argentina     700000
5    B  2021.0               220.0  Argentina     700000
6    C     NaN                 NaN     Brasil    1200000


* Análisis : La ciudad C aparece con valores NaN en Ventas automóviles porque no está en df_ventas.

In [147]:
df_final = df_ventas.set_index('City').join(df_info.set_index('City'), on='City')
print(df_final)

       Año  Ventas automóviles       País  Población
City                                                
A     2020                 100     México     500000
A     2020                 150     México     500000
B     2021                 200  Argentina     700000
B     2021                 250  Argentina     700000
A     2020                 130     México     500000
B     2021                 220  Argentina     700000


#### Combinar DataFrames basado índice

* 💡 Si **df2** tiene **la clave como columna**, usa set_index().
* 💡 Si **df2** ya tiene **la clave como índice**, no necesitas set_index().

**Sintaxis**:

In [None]:
df1.join(df2.set_index('columna_común'), on='columna_común', how='tipo_de_unión')

#df1: DataFrame base al que se agreg
arán columnas de df2.
#df2: DataFrame que se unirá a df1.
#on='columna_común': Especifica la columna clave para unir. Solo se usa si df1 no tiene un índice en común con df2.
#how='left' | 'right' | 'inner' | 'outer'

**Ejemplo**:

In [148]:
df_resultado = df_ventas.join(df_info.set_index('City'), on='City', how='left')
print(df_resultado)

  City   Año  Ventas automóviles       País  Población
0    A  2020                 100     México     500000
1    A  2020                 150     México     500000
2    B  2021                 200  Argentina     700000
3    B  2021                 250  Argentina     700000
4    A  2020                 130     México     500000
5    B  2021                 220  Argentina     700000


### Modificar índices en DataFrame

| **Función**  | **¿Qué hace?** | **Cuándo usarlo** |
|-------------|---------------|-----------------|
| **`set_index('columna')`**  | Convierte una columna en índice. | Para organizar datos por un identificador clave. |
| **`reset_index()`** | Convierte el índice de nuevo en columna normal. | Para volver al formato original. |
| **`reindex(nuevo_índice)`** | Cambia los valores del índice, permitiendo agregar o reordenar. | Si necesitas ajustar el índice sin cambiar columnas. |

📌 **Regla rápida:**  
- Si `join()` te da error, revisa si necesitas `set_index()`. 
- Si el índice no te sirve más, usa `reset_index()`. 
- Si necesitas reordenar, usa `reindex()`. 

#### Convertir una columna en índice del DataFrame usando .set_index()

**Es útil cuando**:
* ✅ Hacer búsquedas rápidas usando índices en vez de columnas.
* ✅ Usar join() para unir DataFrames, ya que join() trabaja con índices.
* ✅ Ordenar y agrupar datos más eficientemente.

**Sintaxis**:

In [None]:
df.set_index('columna', inplace=False)

#'columna': La columna que se convertirá en índice.
# inplace=False: Si True, modifica el DataFrame original; si False, devuelve una copia.

**Ejemplo**:

In [154]:
# Convertimos 'City' en el índice
df_indexado = df.set_index('City')
df_indexado.head()

Unnamed: 0_level_0,Date,Año,Mes,Recesión,Confianza consumidor,Seasonality_Weight,Precio,Advertising_Expenditure,Competition,GDP,Growth_Rate,unemployment_rate,Ventas automóviles,Vehicle_Type,animal,is_duplicate
City,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1
Georgia,1/31/1980,1980,Enero,1,108.24,0.5,27483,1558,5.889888,60.223,0.01,5.4,456.0,MiniCarro,murcielago,False
New York,2/29/1980,1980,Feb,1,98.75,0.75,24308,3048,4.0,45.986,-0.309594,4.8,555.9,MiniCarro,murcielago,False
New York,3/31/1980,1980,Mar,1,107.48,0.2,28238,3137,3.0,35.141,-0.308614,3.4,620.0,CarroMediano,murcielago,False
Illinois,4/30/1980,1980,Dic,1,115.01,1.0,32615,1653,5.889888,45.673,0.230596,4.2,702.8,MiniCarro,perrito,False
California,5/31/1980,1980,May,1,98.72,0.2,23829,1319,4.0,52.997,0.138197,5.3,770.4,CarroFamiliar,murcielago,False


#### Convertir el índice en una columna normal, usa reset_index()

**Ejemplo**:

In [155]:
df_original = df_indexado.reset_index()
df_original.head()

Unnamed: 0,City,Date,Año,Mes,Recesión,Confianza consumidor,Seasonality_Weight,Precio,Advertising_Expenditure,Competition,GDP,Growth_Rate,unemployment_rate,Ventas automóviles,Vehicle_Type,animal,is_duplicate
0,Georgia,1/31/1980,1980,Enero,1,108.24,0.5,27483,1558,5.889888,60.223,0.01,5.4,456.0,MiniCarro,murcielago,False
1,New York,2/29/1980,1980,Feb,1,98.75,0.75,24308,3048,4.0,45.986,-0.309594,4.8,555.9,MiniCarro,murcielago,False
2,New York,3/31/1980,1980,Mar,1,107.48,0.2,28238,3137,3.0,35.141,-0.308614,3.4,620.0,CarroMediano,murcielago,False
3,Illinois,4/30/1980,1980,Dic,1,115.01,1.0,32615,1653,5.889888,45.673,0.230596,4.2,702.8,MiniCarro,perrito,False
4,California,5/31/1980,1980,May,1,98.72,0.2,23829,1319,4.0,52.997,0.138197,5.3,770.4,CarroFamiliar,murcielago,False


###  Agrupar datos y aplicar operaciones como sum, mean

✅ **Casos adecuados**:

* **Cuando necesitas resumir datos por grupos** (ej. calcular el promedio de ventas por año).
Para encontrar patrones o comparaciones dentro de grupos.
Cuando deseas aplicar varias funciones agregadas a diferentes columnas.

* ❌ **Cuándo NO usarlo**:

    * **Si solo necesitas filtrar datos** (df[df['columna'] == valor]).
    * Si no necesitas una transformación de datos por grupos (puedes usar .pivot_table() o .crosstab() en su lugar).
    * Cuando quieres mantener la estructura original de df (puedes usar transform() en su lugar).


**Sintaxis**: Agrupar por una (1) columna

In [None]:
df.groupby('columna').funcion_agregada()

#'columna': Nombre de la columna sobre la que se agruparán los datos.
#funcion_agregada(): Función que se aplicará sobre cada grupo, como sum(), mean(), count(), etc.

**Sintaxis 2**: Agrupar por una (1) columna

In [None]:
df.groupby(['columna1', 'columna2']).funcion_agregada()

**Ejemplo 1**: Total de ventas de automóviles por año

In [164]:
df.groupby('Año')['Ventas automóviles'].sum()

Año
1980     8147.40
1981     7600.90
1982     7573.80
1983    34672.20
1984    35667.00
1985    38113.60
1986    28093.60
1987    27458.00
1988    36894.00
1989    38971.30
1990    11007.30
1991     7870.70
1992    19772.40
1993    24279.00
1994    30657.90
1995    51603.00
1996    27542.50
1997    33482.90
1998    35938.70
1999    30752.20
2000    15441.50
2001     8305.60
2002    21398.60
2003    31547.90
2004    37786.60
2005    36918.80
2006    30691.80
2007    32726.00
2008    15474.60
2009     7580.30
2010    27703.20
2011    39915.60
2012    33386.60
2013    29767.00
2014    40354.90
2015    40226.80
2016    33669.64
2017    30309.80
2018    38167.30
2019    33524.80
2020    28262.00
2021    37392.50
2022    24529.70
2023    31055.20
Name: Ventas automóviles, dtype: float64

**Ejemplo 2**: Promedio de confianza del consumidor por recesión (0 = No, 1 = Sí)

In [165]:
df.groupby('Recesión')['Confianza consumidor'].mean()
#Muestra el promedio de confianza del consumidor en épocas de recesión y no recesión.

Recesión
0    101.186096
1    100.971504
Name: Confianza consumidor, dtype: float64

**Ejemplo 3**: Cantidad de registros por tipo de vehículo

In [166]:
df.groupby('Vehicle_Type')['animal'].count()
#Cuenta cuántos registros hay por tipo de vehículo.

Vehicle_Type
CarroFamiliar    122
CarroMediano     166
Executivecar      70
MiniCarro         76
Sports            94
Name: animal, dtype: int64

#### Realizar varias operaciones por cada columna

**Ejemplo** : Suma y promedio de ventas por año. Mediana de precios por año

In [170]:
#Suma y promedio de ventas por año.
#Mediana de precios por año.

df.groupby('Año').agg({
    'Ventas automóviles': ['sum', 'mean'],  
    'Precio': 'median'
})

Unnamed: 0_level_0,Ventas automóviles,Ventas automóviles,Precio
Unnamed: 0_level_1,sum,mean,median
Año,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
1980,8147.4,678.95,25895.5
1981,7600.9,633.408333,21323.5
1982,7573.8,631.15,22909.5
1983,34672.2,2889.35,23957.5
1984,35667.0,2972.25,26638.0
1985,38113.6,3176.133333,25722.5
1986,28093.6,2341.133333,25127.5
1987,27458.0,2288.166667,23200.0
1988,36894.0,3074.5,24609.0
1989,38971.3,3247.608333,25084.0


#### Calcular un valor por grupo y asignarlo a cada fila individualmente

* **transform()**
  * Se usa dentro de groupby() cuando quieres calcular un valor por grupo y asignarlo a cada fila individualmente, sin perder la estructura original del DataFrame.

**Sintaxis**:

In [None]:
df['nueva_columna'] = df.groupby('columna')['otra_columna'].transform('funcion_agregada')

# columna: La columna por la que agrupamos.
# otra_columna: La columna sobre la cual aplicamos la función agregada.
# funcion_agregada: Una función como 'mean', 'sum', 'max', 'min', etc.

**Ejemplo**: Calcular el promedio de ventas por tipo de vehículo, pero queremos que cada fila conserve la estructura original

In [179]:
df['promedio_ventas_tipo'] = df.groupby('Vehicle_Type')['Ventas automóviles'].transform('mean')
print(df)
#Calcula el promedio de ventas de cada tipo de vehículo.
#Asigna ese promedio a cada fila del DataFrame, manteniendo todas las filas.

           Date   Año    Mes  Recesión  Confianza consumidor  \
0     1/31/1980  1980  Enero         1                108.24   
1     2/29/1980  1980    Feb         1                 98.75   
2     3/31/1980  1980    Mar         1                107.48   
3     4/30/1980  1980    Dic         1                115.01   
4     5/31/1980  1980    May         1                 98.72   
..          ...   ...    ...       ...                   ...   
523   8/31/2023  2023  Agost         0                103.36   
524   9/30/2023  2023    Sep         0                101.55   
525  10/31/2023  2023    Oct         0                124.66   
526  11/30/2023  2023    Nov         0                 97.09   
527  12/31/2023  2023    Dec         0                 95.92   

     Seasonality_Weight  Precio  Advertising_Expenditure  Competition     GDP  \
0                  0.50   27483                     1558     5.889888  60.223   
1                  0.75   24308                     3048     4.000000

#### Aplicar una función personalizada a cada grupo.

* **apply()**:
  * *Se usa dentro de groupby()* cuando quieres aplicar una función personalizada a cada grupo.

**Sintaxis**

In [None]:
df.groupby('columna').apply(lambda x: funcion_personalizada(x))

#columna: La columna por la que agrupamos.
#funcion_personalizada(x): Una función que recibe un grupo de filas y devuelve un resultado.

### Filtrar columnas por tipo de datos

* **Filtrar columnas por tipo de datos**: Para seleccionar solo las columnas que tienen un tipo de dato que te interesa.
* **Realizar operaciones específicas**: Cuando deseas aplicar ciertas operaciones solo a columnas de tipos específicos

**Sintaxis**:

In [None]:
df.select_dtypes(include=[tipo_dato])

#include: Especifica los tipos de datos que quieres seleccionar. Puede ser una lista de tipos como ['int64', 'float64'] o una cadena de tipo number para seleccionar todos los tipos numéricos.
# exclude: Especifica los tipos de datos que no deseas seleccionar.

**Ejemplo**:En este ejemplo, select_dtypes selecciona solo las columnas numéricas, que son las de tipo int y float.

In [184]:
# Seleccionar solo las columnas numéricas
df_numerico = df.select_dtypes(include=['number'])
df_numerico.head()

# Filtrar solo columnas de texto:object o string

Unnamed: 0,Year,Recession,Consumer_Confidence,Seasonality_Weight,Price,Advertising_Expenditure,Competition,GDP,Growth_Rate,unemployment_rate,Automobile_Sales
0,1980,1,108.24,0.5,27483.571,1558,7,60.223,0.01,5.4,456.0
1,1980,1,98.75,0.75,24308.678,3048,4,45.986,-0.309594,4.8,555.9
2,1980,1,107.48,0.2,28238.443,3137,3,35.141,-0.308614,3.4,620.0
3,1980,1,115.01,1.0,32615.149,1653,7,45.673,0.230596,4.2,702.8
4,1980,1,98.72,0.2,23829.233,1319,4,52.997,0.138197,5.3,770.4


### Operaciones con texto 

**Sintaxis**:

In [None]:
df['columna'].str.upper()
df['columna'].str.contains('texto')
df['columna'].str.endswith('.com')

**Ejemplo**: 

In [186]:
data = {'nombres': ['Ana', 'Teresa', 'Pedro']}
df = pd.DataFrame(data)

print(df['nombres'].str.upper())  # Convertir a mayúsculas
print(df['nombres'].str.contains('Te'))  # Buscar 'Te'

0       ANA
1    TERESA
2     PEDRO
Name: nombres, dtype: object
0    False
1     True
2    False
Name: nombres, dtype: bool
