# **1. Pandas**

Pandas es una de las bibliotecas más utilizadas en Python para el análisis de datos. Ofrece estructuras de datos flexibles y eficientes, así como herramientas de manipulación y análisis de datos que son fundamentales para cualquier científico de datos. A continuación, una breve introducción a Pandas y sus puntos clave:

Fue creado por Wes McKinney y se basa en la biblioteca NumPy. Pandas se utiliza comúnmente para trabajar con datos estructurados, como hojas de cálculo, bases de datos relacionales y datos en formato CSV.

**1.1. Puntos clave de Pandas:**

**1. Estructuras de datos:** Pandas ofrece dos estructuras de datos principales: Series y DataFrames.

*  **Series:** Una Serie es un arreglo unidimensional etiquetado que puede contener cualquier tipo de dato. Cada elemento de una Serie tiene una etiqueta, que se llama índice.
*  **DataFrames:** Un DataFrame es una estructura de datos bidimensional que se asemeja a una tabla de una base de datos o una hoja de cálculo de Excel. Consiste en filas y columnas, donde cada columna puede ser una Serie. Los DataFrames son ideales para representar y manipular datos tabulares.

**2. Lectura y escritura de datos:** Pandas facilita la lectura y escritura de datos en diversos formatos, como CSV, Excel, SQL, JSON y más. Puedes cargar datos en un DataFrame para su análisis y guardar los resultados en diferentes formatos.

**3. Indexación y selección:** Pandas ofrece una amplia variedad de métodos para indexar y seleccionar datos de Series y DataFrames. Puedes acceder a filas y columnas utilizando etiquetas, índices enteros, condiciones booleanas, entre otros.

**4. Limpieza y transformación de datos:** Pandas proporciona herramientas para limpiar y transformar datos, como eliminar valores nulos, cambiar tipos de datos, fusionar DataFrames, aplicar funciones a columnas y más.

**5. Análisis y visualización de datos:** Pandas es compatible con operaciones estadísticas y de agregación, lo que facilita el análisis de datos. Además, puedes integrar Pandas con bibliotecas de visualización como Matplotlib y Seaborn para crear gráficos y visualizaciones de datos.

**6. Manipulación de series temporales:** Pandas es muy útil en el análisis de series temporales, ya que ofrece herramientas para manipular y analizar datos con marcas de tiempo.

**7. Eficiencia:** Pandas está diseñado para ser eficiente en el manejo de grandes conjuntos de datos. Utiliza NumPy subyacentemente para operaciones numéricas, lo que acelera el procesamiento de datos.

**8. Documentación y comunidad:** Pandas tiene una documentación exhaustiva y una comunidad activa de usuarios y desarrolladores. Esto facilita la búsqueda de soluciones a problemas y la mejora de tus habilidades en el uso de la biblioteca.

# **2. Importacion de Datos en Pandas**

La importación de datos es un paso crucial en cualquier análisis de datos utilizando Pandas. En este capítulo, te explicaré la importancia de la importación de datos, cómo cargar datos en Pandas desde diversas fuentes y cómo entender la estructura de los datos importados.

**1.1 Por qué es importante la importación de datos**

La calidad y precisión de los datos con los que trabajas son fundamentales para el éxito de tu análisis. Importar datos correctamente implica:

* Garantizar que los datos se carguen de manera precisa y completa.
* Manejar diferentes tipos de archivos (CSV, Excel, JSON, SQL, etc.).
* Lidiar con datos faltantes, valores atípicos y errores de formato

**1.2 Fuentes de datos comunes**

Pandas puede importar datos desde una amplia variedad de fuentes, entre las que se incluyen:

* Archivos locales (CSV, Excel, JSON, etc.).
* Bases de datos SQL.
* Datos en línea (a través de URL).
* Datos de hojas de cálculo de Google.
* Y muchas otras fuentes.

**1.3 Importación de datos en Pandas**

Aprenderás cómo cargar datos utilizando funciones como **read_csv, read_excel, read_sql,** y más. Cada función tiene opciones para personalizar la importación de datos según tus necesidades.

**1. Importación de datos desde un archivo CSV:**

In [117]:
'''
import pandas as pd

Cargar datos desde un archivo CSV
df_csv = pd.read_csv('archivo.csv')
'''

"\nimport pandas as pd\n\nCargar datos desde un archivo CSV\ndf_csv = pd.read_csv('archivo.csv')\n"

In [118]:
import pandas as pd
pd.set_option('display.max_rows', 10)
pd.set_option('display.max_columns', 10)

df_csv = pd.read_csv('alquiler.csv', sep = ';')
df_csv

Unnamed: 0,Tipo,Distrito,Cuartos,Vacantes,Suites,Area,Valor,Mantenimiento,Impuesto
0,Habitación,San Borja,1,0,0,40,1700.0,500.0,60.0
1,Casa,Lurigancho,2,0,1,100,7000.0,,
2,Local comercial,Ate,0,4,0,150,5200.0,4020.0,1111.0
3,Departamento,Pachacámac,1,0,0,15,800.0,390.0,20.0
4,Departamento,Ate,1,0,0,48,800.0,230.0,
...,...,...,...,...,...,...,...,...,...
32955,Habitación,Pachacámac,0,0,0,27,800.0,350.0,25.0
32956,Departamento,Lince,3,1,2,78,1800.0,800.0,40.0
32957,Departamento,Rímac,2,1,0,48,1400.0,509.0,37.0
32958,Departamento,Rímac,2,0,0,70,3000.0,760.0,


Cuando importas datos en Pandas, el argumento **sep=';'** se utiliza para especificar el separador de campos en un archivo de datos, como un archivo CSV. El separador determina cómo se dividen los datos en columnas dentro de un archivo. En este caso, **sep=';'** indica que los campos en el archivo de datos se separan utilizando el punto y coma como delimitador en lugar del separador de coma estándar. Esto es útil cuando trabajas con archivos CSV o datos tabulares que utilizan el punto y coma como separador en lugar de la coma.

Respecto a las opciones **pd.set_option('display.max_rows', 10)** y **pd.set_option('display.max_columns', 10)**, estas líneas de código se utilizan para configurar cómo Pandas muestra los datos en la salida. Estas opciones controlan el número máximo de filas y columnas que se muestran al imprimir una Serie o DataFrame. Esto es especialmente útil cuando trabajas con conjuntos de datos grandes, ya que evita que se muestren todas las filas o columnas, lo que podría ser abrumador.

* **pd.set_option('display.max_rows', 10):** Limita la visualización de filas a un máximo de 10. Si tienes un DataFrame con más de 10 filas, Pandas mostrará solo las primeras 10 y las últimas filas, lo que hace que la salida sea más manejable.

* **pd.set_option('display.max_columns', 10):** Limita la visualización de columnas a un máximo de 10. Si tienes un DataFrame con más de 10 columnas, Pandas mostrará solo las primeras 10 y las últimas columnas.

**2. Importación de datos desde un archivo Excel:**

In [119]:
'''
import pandas as pd

Cargar datos desde un archivo Excel
df_excel = pd.read_excel('archivo.xlsx')
'''

"\nimport pandas as pd\n\nCargar datos desde un archivo Excel\ndf_excel = pd.read_excel('archivo.xlsx')\n"

In [120]:
datos_xlsx = pd.read_excel('alquiler.xlsx')
datos_xlsx

Unnamed: 0,Tipo,Distrito,Cuartos,Vacantes,Suites,Area,Valor,Mantenimiento,Impuesto
0,Habitación,San Borja,1,0,0,40,1700,500.0,60.0
1,Casa,Lurigancho,2,0,1,100,7000,,
2,Local comercial,Ate,0,4,0,150,5200,4020.0,1111.0
3,Departamento,Pachacámac,1,0,0,15,800,390.0,20.0
4,Departamento,Ate,1,0,0,48,800,230.0,
5,Departamento,Barranco,3,1,0,70,1200,,
6,Departamento,Comas,2,0,0,50,1300,301.0,17.0
7,Casa en condominio,Ate,5,4,5,750,22000,,
8,Casa en condominio,El Agustino,2,2,0,65,1000,,
9,Local comercial,Pachacámac,0,3,0,695,35000,19193.0,3030.0


**3. Importación de datos desde un archivo JSON:**

In [121]:
'''
import pandas as pd

Cargar datos desde un archivo JSON
df_json = pd.read_json('archivo.json')
'''

"\nimport pandas as pd\n\nCargar datos desde un archivo JSON\ndf_json = pd.read_json('archivo.json')\n"

In [122]:
datos_json = pd.read_json('alquiler.json')
datos_json

Unnamed: 0,Tipo,Distrito,Cuartos,Vacantes,Suites,Area,Valor,Mantenimiento,Impuesto
0,Habitación,San Borja,1,0,0,40,1700,500.0,60.0
1,Casa,Lurigancho,2,0,1,100,7000,,
2,Local comercial,Ate,0,4,0,150,5200,4020.0,1111.0
3,Departamento,Pachacámac,1,0,0,15,800,390.0,20.0
4,Departamento,Ate,1,0,0,48,800,230.0,
5,Departamento,Barranco,3,1,0,70,1200,,
6,Departamento,Comas,2,0,0,50,1300,301.0,17.0
7,Casa en condominio,Ate,5,4,5,750,22000,,
8,Casa en condominio,El Agustino,2,2,0,65,1000,,
9,Local comercial,Pachacámac,0,3,0,695,35000,19193.0,3030.0


**4. Importación de datos txt**

In [123]:
datos_txt = pd.read_table('alquiler.txt')
datos_txt

Unnamed: 0,Tipo,Distrito,Cuartos,Vacantes,Suites,Area,Valor,Mantenimiento,Impuesto
0,Habitación,San Borja,1,0,0,40,1700,500.0,60.0
1,Casa,Lurigancho,2,0,1,100,7000,,
2,Local comercial,Ate,0,4,0,150,5200,4020.0,1111.0
3,Departamento,Pachacámac,1,0,0,15,800,390.0,20.0
4,Departamento,Ate,1,0,0,48,800,230.0,
5,Departamento,Barranco,3,1,0,70,1200,,
6,Departamento,Comas,2,0,0,50,1300,301.0,17.0
7,Casa en condominio,Ate,5,4,5,750,22000,,
8,Casa en condominio,El Agustino,2,2,0,65,1000,,
9,Local comercial,Pachacámac,0,3,0,695,35000,19193.0,3030.0


**5. Importación de datos html**

In [124]:
datos_html = pd.read_html('datos_html_1.html')
datos_html[0]

Unnamed: 0,Año,Campeón,Subcampeón,Sede
0,2018,Francia,Croacia,Rusia
1,2014,Alemania,Argentina,Brasil
2,2010,España,Holanda,Sudáfrica
3,2006,Italia,Francia,Alemania
4,2002,Brasil,Alemania,Corea S. y Japón
...,...,...,...,...
18,1946,No celebrado (II Guerra Mundial),No celebrado (II Guerra Mundial),No celebrado (II Guerra Mundial)
19,1942,No celebrado (II Guerra Mundial),No celebrado (II Guerra Mundial),No celebrado (II Guerra Mundial)
20,1938,Italia,Hungría,Francia
21,1934,Italia,Checoslovaquia,Italia


**6. Importación de datos desde una
base de datos SQL:**

In [125]:
'''
import pandas as pd
import sqlite3

Conectar a una base de datos SQL
conexion = sqlite3.connect('basededatos.db')

Cargar datos desde una consulta SQL
query = "SELECT * FROM tabla"
df_sql = pd.read_sql(query, conexion)
'''

'\nimport pandas as pd\nimport sqlite3\n\nConectar a una base de datos SQL\nconexion = sqlite3.connect(\'basededatos.db\')\n\nCargar datos desde una consulta SQL\nquery = "SELECT * FROM tabla"\ndf_sql = pd.read_sql(query, conexion)\n'

**7. Importación de datos desde una URL:**

In [126]:
'''
import pandas as pd

# Cargar datos desde una URL
url = 'https://ejemplo.com/datos.csv'
df_url = pd.read_csv(url)
'''

"\nimport pandas as pd\n\n# Cargar datos desde una URL\nurl = 'https://ejemplo.com/datos.csv'\ndf_url = pd.read_csv(url)\n"

In [127]:
import requests

# Realizar una solicitud GET a la URL de la página web
url = 'https://www.federalreserve.gov/releases/h3/current/default.htm'
response = requests.get(url)

# Comprobar si la solicitud fue exitosa
if response.status_code == 200:
    # Utilizar pd.read_html() para extraer tablas HTML de la página
    tablas_html = pd.read_html(response.text)

    # Seleccionar la tabla correcta (puede requerir inspeccionar la página web)
    # En este caso, asumimos que la tabla deseada es la primera en la lista
    tabla = tablas_html[0]

    # Crear un DataFrame de Pandas a partir de la tabla
    df = pd.DataFrame(tabla)

    # Mostrar el DataFrame
    print(df)

else:
    print("La solicitud a la página web falló.")


             Date      Reserve balances required                              \
             Date Reserve balance requirements 1 Top of penalty- free band 2   
0         Month 7                        Month 7                     Month 7   
1       Aug. 2019                         134639                      148114   
2      Sept. 2019                         134707                      148188   
3       Oct. 2019                         134998                      148509   
4       Nov. 2019                         140705                      154787   
..            ...                            ...                         ...   
16  July 15, 2020                              0                           0   
17  July 29, 2020                              0                           0   
18  Aug. 12, 2020                              0                           0   
19  Aug. 26, 2020                              0                           0   
20  Sept. 9, 2020                       

In [128]:
df

Unnamed: 0_level_0,Date,Reserve balances required,Reserve balances required,Reserve balances required,Reserve balances maintained 4,Reserve balances maintained 4,Reserve balances maintained 4
Unnamed: 0_level_1,Date,Reserve balance requirements 1,Top of penalty- free band 2,Bottom of penalty- free band 3,Total,Balances maintained to satisfy reserve balance requirements 5,Balances maintained that exceed the top of the penalty- free band 6
0,Month 7,Month 7,Month 7,Month 7,Month 7,Month 7,Month 7
1,Aug. 2019,134639,148114,121167,1520876,147555,1373321
2,Sept. 2019,134707,148188,121227,1439771,147498,1292273
3,Oct. 2019,134998,148509,121489,1481513,148050,1333462
4,Nov. 2019,140705,154787,126625,1529341,154256,1375085
...,...,...,...,...,...,...,...
16,"July 15, 2020",0,0,0,2795785,0,2795785
17,"July 29, 2020",0,0,0,2623526,0,2623526
18,"Aug. 12, 2020",0,0,0,2751124,0,2751124
19,"Aug. 26, 2020",0,0,0,2821740,0,2821740


# **3. Series**

**1.1 ¿Qué es una Serie en Pandas?**

Una Serie en Pandas es una estructura de datos unidimensional que representa una columna de datos. A diferencia de una lista de Python, una Serie tiene etiquetas de índice que permiten un acceso más flexible a los datos. Puedes pensar en una Serie como una columna en una hoja de cálculo o una sola dimensión de datos.

 La forma basica de crear una Serie es la siguinte manera:

In [129]:
'''
Sintaxis:

  s = pd.Series(datos, index = index)

'''

'\nSintaxis:\n\n  s = pd.Series(datos, index = index)\n\n'

* **pd.Series:** Esto es una llamada al constructor de la clase Series en Pandas, que se utiliza para crear una Serie.

* **datos:** Aquí debes proporcionar los datos que deseas almacenar en la Serie. Pueden ser una lista, una tupla, un diccionario o un array de NumPy, entre otros.

* **index:** Este argumento es opcional y te permite especificar un índice personalizado para la Serie. El índice es la etiqueta asociada a cada elemento de la Serie. Si no se proporciona un índice, Pandas creará uno por defecto, comenzando desde 0 y aumentando en incrementos de 1.

**Conceptos sobre las Series**

1. **Valores Nulos (NaN):** Las Series pueden contener valores nulos, que se representan en Pandas como NaN (Not-a-Number). Es fundamental entender cómo manejar y trabajar con estos valores nulos en tus Series, ya que pueden afectar cálculos y análisis. Los métodos **isna(), notna(), y dropna()** son útiles para lidiar con valores nulos.

2. **Etiquetas de Índice Únicas:** Las etiquetas de índice en una Serie deben ser únicas. Si intentas crear una Serie con etiquetas de índice duplicadas, obtendrás un error.

3. **Orden en una Serie:** Aunque las Series en Pandas tienen un orden implícito basado en las etiquetas de índice, no son equivalentes a una secuencia ordenada. Las Series no se ordenan automáticamente por los valores o las etiquetas de índice.

4. **Operaciones Vectorizadas:** Las Series en Pandas están diseñadas para realizar operaciones vectorizadas de manera eficiente. Esto significa que puedes aplicar una operación a toda la Serie sin necesidad de bucles.

5. **Conversiones de Tipos de Datos:** Puedes convertir el tipo de datos de una Serie a otro utilizando métodos como **astype()**. Esto es útil para realizar cálculos y análisis específicos.

6. **Concatenación y Combinación:** Puedes concatenar y combinar varias Series en una sola Serie o DataFrame utilizando funciones como **concat() y combine_first()**.

7. **Indexación Jerárquica:** Las Series pueden tener índices jerárquicos (MultiIndex), lo que permite representar datos multidimensionales en una estructura unidimensional.

8. **Graficación y Visualización:** Pandas proporciona funcionalidades para la visualización de datos, lo que facilita la creación de gráficos a partir de Series. Puedes utilizar bibliotecas como Matplotlib junto con Pandas para crear visualizaciones.

9. **Ordenamiento y Clasificación:** Puedes ordenar una Serie por etiquetas de índice o valores utilizando métodos como **sort_index() y sort_values()**. Esto es útil para organizar tus datos de manera específica.

10. **Operaciones entre Series:** Puedes realizar operaciones matemáticas y lógicas entre Series si tienen etiquetas de índice coincidentes. Las operaciones se alinearán automáticamente según las etiquetas de índice.

11. **Interpolación:** Pandas ofrece métodos para realizar interpolación de datos faltantes o para suavizar Series de datos.

12. **Exportación e Importación de Datos:** Puedes exportar una Serie a diferentes formatos de archivo, como CSV, Excel, o HDF5, y luego importarla nuevamente en Pandas.

**1.2 Creación de Series**

Crear una Serie en Pandas es simple. Puedes crear una Serie a partir de una lista, una tupla, un diccionario o un array de NumPy. Aquí tienes ejemplos:

In [130]:
import pandas as pd

1. **Lista**

In [131]:
# Crear una Serie a partir de una lista
datos = [1, 2, 3, 4, 5]
serie = pd.Series(datos)

In [132]:
serie

0    1
1    2
2    3
3    4
4    5
dtype: int64

In [133]:
type(serie)

pandas.core.series.Series

2. **Diccionario**

In [134]:
# Crear una Serie a partir de un diccionario
diccionario = {'a': 10, 'b': 20, 'c': 30}
serie_diccionario = pd.Series(diccionario)

In [135]:
serie_diccionario

a    10
b    20
c    30
dtype: int64

In [136]:
type(serie_diccionario)

pandas.core.series.Series

3. **Tupla**

In [137]:
# Crear una Serie a partir de una tupla
tupla = (100, 200, 300, 400)
serie_tupla = pd.Series(tupla)

In [138]:
serie_tupla

0    100
1    200
2    300
3    400
dtype: int64

In [139]:
type(serie_tupla)

pandas.core.series.Series

4. **Comprehension**

In [140]:
# Crear un diccionario llamado 'data' utilizando una comprensión de diccionario
# Cada clave será una etiqueta de índice en la Serie y el valor será el contenido de la Serie.
data = {'Linea ' + str(i): i + 1 for i in range(5)}

# Crear una Serie 's' a partir del diccionario 'data'
s = pd.Series(data)

# Mostrar la Serie 's'
s


Linea 0    1
Linea 1    2
Linea 2    3
Linea 3    4
Linea 4    5
dtype: int64

**1.3 Indexación y Selección en Series**

Puedes acceder a los elementos de una Serie utilizando etiquetas de índice o posiciones numéricas. Aquí hay ejemplos de ambas formas:

In [141]:
datos = [10, 20, 30, 40, 50]
etiquetas = ['A', 'B', 'C', 'D', 'E']
serie = pd.Series(datos, index=etiquetas)

Ahora, con esta Serie, exploraremos varios ejemplos de indexación y selección:

In [142]:
type(serie)

pandas.core.series.Series

1. **Indexación por Etiqueta de Índice:**

In [143]:
serie

A    10
B    20
C    30
D    40
E    50
dtype: int64

In [144]:
# Acceder al valor con etiqueta 'A'
valor_a = serie['A']
print("Valor de A:", valor_a)

# Acceder a múltiples valores por etiquetas de índice
valores_bc = serie[['B', 'C']]
print("Valores de B y C:", valores_bc)

Valor de A: 10
Valores de B y C: B    20
C    30
dtype: int64


2. **Indexación por Posición Numérica:**

In [145]:
serie

A    10
B    20
C    30
D    40
E    50
dtype: int64

In [146]:
# Acceder al primer valor (posición 0)
primer_valor = serie[0]
print("Primer valor:", primer_valor)

# Acceder a un rango de valores por posición numérica
valores_rango = serie[1:4]  # Devuelve desde la posición 1 hasta la 3
print("Valores en posición 1 a 3:", valores_rango)


Primer valor: 10
Valores en posición 1 a 3: B    20
C    30
D    40
dtype: int64


3. **Indexación con Expresiones Booleanas:**

In [147]:
serie

A    10
B    20
C    30
D    40
E    50
dtype: int64

In [148]:
# Usar una expresión booleana para filtrar valores
mayores_a_30 = serie[serie > 30]
print("Valores mayores a 30:", mayores_a_30)


Valores mayores a 30: D    40
E    50
dtype: int64


4. **Uso de Métodos loc y iloc para Indexación:**

In [149]:
serie

A    10
B    20
C    30
D    40
E    50
dtype: int64

In [150]:
# Usar loc para acceder por etiquetas de índice
valor_loc = serie.loc['D']
print("Valor usando loc:", valor_loc)

# Usar iloc para acceder por posición numérica
valor_iloc = serie.iloc[3]
print("Valor usando iloc:", valor_iloc)


Valor usando loc: 40
Valor usando iloc: 40


5. **Selección de Valores Nulos o No Nulos:**

In [151]:
serie

A    10
B    20
C    30
D    40
E    50
dtype: int64

In [152]:
# Crear una Serie con valores nulos
serie_con_nulos = pd.Series([1, None, 3, None, 5], index=['A', 'B', 'C', 'D', 'E'])

# Seleccionar valores no nulos
valores_no_nulos = serie_con_nulos[serie_con_nulos.notna()]
print("Valores no nulos:", valores_no_nulos)


Valores no nulos: A    1.0
C    3.0
E    5.0
dtype: float64


Estos ejemplos muestran diversas formas de indexar y seleccionar valores en una Serie de Pandas utilizando etiquetas de índice, posiciones numéricas y expresiones booleanas. Las funciones **loc y iloc** son especialmente útiles para una indexación precisa. Ten en cuenta que la selección de valores nulos o no nulos es esencial al trabajar con datos que pueden contener valores faltantes (NaN).

**1.4 Operaciones en Series**

Las Series permiten realizar varias operaciones, como cálculos matemáticos, filtrado de datos y aplicar funciones a los elementos. Algunas operaciones comunes incluyen:

* Suma, resta, multiplicación y división de Series.
* Aplicación de funciones a todos los elementos (por ejemplo, serie.apply(func)).
* Filtrado de datos basado en condiciones (por ejemplo, serie[serie > 3]).

In [153]:
data = {'Linea ' + str(i): i + 1 for i in range(5)}
s = pd.Series(data)
s

Linea 0    1
Linea 1    2
Linea 2    3
Linea 3    4
Linea 4    5
dtype: int64

**Suma:** Suma 2 a cada uno de sus elementos.



In [154]:
s1 = s + 2
s1

Linea 0    3
Linea 1    4
Linea 2    5
Linea 3    6
Linea 4    7
dtype: int64

1. **Operaciones entre series**

Lo importante en las operaciones entre Series es que tengan etiquetas de índice coincidentes o, al menos, una superposición en las etiquetas de índice para que las operaciones se realicen correctamente.

Pandas realiza operaciones basadas en las etiquetas de índice y, cuando se aplican operaciones, las alinea automáticamente en función de las etiquetas de índice. Esto significa que, si tienes dos Series con diferentes nombres pero con etiquetas de índice coincidentes, aún puedes realizar operaciones entre ellas.

In [155]:
s

Linea 0    1
Linea 1    2
Linea 2    3
Linea 3    4
Linea 4    5
dtype: int64

In [156]:
s1

Linea 0    3
Linea 1    4
Linea 2    5
Linea 3    6
Linea 4    7
dtype: int64

In [157]:
s2 = s1 + s
s2

Linea 0     4
Linea 1     6
Linea 2     8
Linea 3    10
Linea 4    12
dtype: int64

En cambio si el indice no tuviera el mismo nombre apareceria como valor **NaN**

**1.5 Métodos Útiles para Series**

Las Series en Pandas ofrecen una variedad de métodos útiles para realizar tareas comunes de análisis de datos:


1. **Método head(n) y tail(n) - Muestra las primeras y últimas n filas de la Serie:**

In [158]:
serie

A    10
B    20
C    30
D    40
E    50
dtype: int64

In [159]:
datos = [1, 2, 3, 4, 5, 6, 7, 8]
etiquetas = ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H']
serie = pd.Series(datos, index=etiquetas)

# Mostrar las primeras 3 filas de la Serie
primeras_tres = serie.head(3)
print("Primeras 3 filas:\n", primeras_tres)

# Mostrar las últimas 2 filas de la Serie
ultimas_dos = serie.tail(2)
print("\nÚltimas 2 filas:\n", ultimas_dos)

Primeras 3 filas:
 A    1
B    2
C    3
dtype: int64

Últimas 2 filas:
 G    7
H    8
dtype: int64


2. **Método unique() - Devuelve valores únicos de la Serie:**

In [160]:
serie

A    1
B    2
C    3
D    4
E    5
F    6
G    7
H    8
dtype: int64

In [161]:
# Obtener valores únicos de la Serie
valores_unicos = serie.unique()
print("Valores únicos:\n", valores_unicos)

Valores únicos:
 [1 2 3 4 5 6 7 8]


3. **Método value_counts() - Devuelve recuentos de ocurrencias de cada valor único:**

In [162]:
serie

A    1
B    2
C    3
D    4
E    5
F    6
G    7
H    8
dtype: int64

In [163]:
# Obtener recuentos de ocurrencias de cada valor único en la Serie
recuentos = serie.value_counts()
print("Recuentos de ocurrencias:\n", recuentos)

Recuentos de ocurrencias:
 1    1
2    1
3    1
4    1
5    1
6    1
7    1
8    1
dtype: int64


4. **Método isna() y notna() - Identifica valores nulos o no nulos:**

In [164]:
serie

A    1
B    2
C    3
D    4
E    5
F    6
G    7
H    8
dtype: int64

In [165]:
# Crear una Serie con valores nulos
serie_con_nulos = pd.Series([1, None, 3, None, 5], index=['A', 'B', 'C', 'D', 'E'])

# Identificar valores nulos en la Serie
valores_nulos = serie_con_nulos.isna()
print("Valores nulos:\n", valores_nulos)

# Identificar valores no nulos en la Serie
valores_no_nulos = serie_con_nulos.notna()
print("\nValores no nulos:\n", valores_no_nulos)


Valores nulos:
 A    False
B     True
C    False
D     True
E    False
dtype: bool

Valores no nulos:
 A     True
B    False
C     True
D    False
E     True
dtype: bool


5. **Método idxmax() e idxmin() - Devuelve el índice del valor máximo y mínimo:**

In [166]:
serie

A    1
B    2
C    3
D    4
E    5
F    6
G    7
H    8
dtype: int64

In [167]:
# Encontrar el índice del valor máximo en la Serie
indice_max = serie.idxmax()
print("Índice del valor máximo:", indice_max)

# Encontrar el índice del valor mínimo en la Serie
indice_min = serie.idxmin()
print("Índice del valor mínimo:", indice_min)


Índice del valor máximo: H
Índice del valor mínimo: A


6. **Método map(diccionario) - Mapea los valores de la Serie según un diccionario:**

In [168]:
serie

A    1
B    2
C    3
D    4
E    5
F    6
G    7
H    8
dtype: int64

In [169]:
# Crear un diccionario para mapear valores
diccionario_de_mapeo = {1: 'Uno', 2: 'Dos', 3: 'Tres', 4: 'Cuatro', 5: 'Cinco'}

# Aplicar el mapeo a la Serie
serie_mapeada = serie.map(diccionario_de_mapeo)
print("Serie mapeada:\n", serie_mapeada)

Serie mapeada:
 A       Uno
B       Dos
C      Tres
D    Cuatro
E     Cinco
F       NaN
G       NaN
H       NaN
dtype: object


7. **Método apply(func) - Aplica una función a cada elemento de la Serie:**

In [170]:
serie

A    1
B    2
C    3
D    4
E    5
F    6
G    7
H    8
dtype: int64

In [171]:
# Definir una función para aplicar a los elementos de la Serie
def duplicar(x):
    return x * 2

# Aplicar la función a la Serie
serie_duplicada = serie.apply(duplicar)
print("Serie duplicada:\n", serie_duplicada)

Serie duplicada:
 A     2
B     4
C     6
D     8
E    10
F    12
G    14
H    16
dtype: int64


8. **Método type() y len() - Devuelve el tipo de datos y la longitud de la Serie:**

In [172]:
serie

A    1
B    2
C    3
D    4
E    5
F    6
G    7
H    8
dtype: int64

In [173]:
# Obtener el tipo de datos de la Serie
tipo_de_datos = serie.dtype
print("Tipo de datos de la Serie:", tipo_de_datos)

# Obtener la longitud de la Serie
longitud = len(serie)
print("Longitud de la Serie:", longitud)


Tipo de datos de la Serie: int64
Longitud de la Serie: 8


9. **Método sample(n) - Devuelve una muestra aleatoria de n elementos de la Serie:**

In [174]:
serie

A    1
B    2
C    3
D    4
E    5
F    6
G    7
H    8
dtype: int64

In [175]:
# Obtener una muestra aleatoria de 3 elementos de la Serie
muestra_aleatoria = serie.sample(3)
print("Muestra aleatoria:\n", muestra_aleatoria)

Muestra aleatoria:
 A    1
E    5
D    4
dtype: int64


10. **Método drop_duplicates() - Elimina valores duplicados en la Serie:**

In [176]:
# Crear una Serie con valores duplicados
datos = [1, 2, 2, 3, 3, 4, 5, 5]
etiquetas = ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H']
serie_con_duplicados = pd.Series(datos, index=etiquetas)

# Eliminar valores duplicados y obtener una nueva Serie sin duplicados
serie_sin_duplicados = serie_con_duplicados.drop_duplicates()

print("Serie original con duplicados:\n", serie_con_duplicados)
print("\nSerie sin duplicados:\n", serie_sin_duplicados)

Serie original con duplicados:
 A    1
B    2
C    2
D    3
E    3
F    4
G    5
H    5
dtype: int64

Serie sin duplicados:
 A    1
B    2
D    3
F    4
G    5
dtype: int64


11. **Metodo astype() - Conversión de Tipo de Datos:**

In [177]:
# Convertir la Serie a tipo de datos entero
datos = ['1', '2', '3', '4', '5'] # Tipo de elemnto str
etiquetas = ['A', 'B', 'C', 'D', 'E']
serie = pd.Series(datos, index=etiquetas)

# Convertir la Serie a tipo de datos entero
serie_enteros = serie.astype(int)
print("Serie con tipo de datos entero:\n", serie_enteros)


Serie con tipo de datos entero:
 A    1
B    2
C    3
D    4
E    5
dtype: int64


En este ejemplo, la Serie **serie** contiene cadenas de texto que representan números. Utilizamos **astype(int)** para convertir los valores en la Serie a números enteros.

12. **Metodo concat() - Concatenación de Series:**

In [178]:
# Crear dos Series
serie1 = pd.Series([1, 2, 3], index=['A', 'B', 'C'])
serie2 = pd.Series([4, 5, 6], index=['D', 'E', 'F'])

# Concatenar las dos Series en una nueva Serie
serie_concatenada = pd.concat([serie1, serie2])
print("Serie concatenada:\n", serie_concatenada)


Serie concatenada:
 A    1
B    2
C    3
D    4
E    5
F    6
dtype: int64


En este ejemplo, concatenamos las dos Series **serie1** y **serie2** en una nueva Serie llamada **serie_concatenada**. Las etiquetas de índice se mantienen y se combinan en la nueva Serie.

13. **Metodo combine_first() - Combinación de Series con Prioridad:**

In [179]:
# Crear dos Series con valores faltantes
serie1 = pd.Series([1, 2, None, 4], index=['A', 'B', 'C', 'D'])
serie2 = pd.Series([10, None, 30, 40], index=['A', 'B', 'C', 'D'])

# Combinar las dos Series dando prioridad a los valores de serie1
serie_combinada = serie1.combine_first(serie2)
print("Serie combinada con prioridad a serie1:\n", serie_combinada)

Serie combinada con prioridad a serie1:
 A     1.0
B     2.0
C    30.0
D     4.0
dtype: float64


En este ejemplo, combinamos las dos Series **serie1** y **serie2**, dando prioridad a los valores de **serie1**. Si un valor es nulo en **serie1**, se utiliza el valor correspondiente de **serie2**.

14. **Metodo sort_index() - Ordenamiento por Etiquetas de Índice:**

In [180]:
# Crear una Serie desordenada
serie_desordenada = pd.Series([4, 2, 3, 1], index=['B', 'A', 'D', 'C'])

# Ordenar la Serie por etiquetas de índice
serie_ordenada = serie_desordenada.sort_index()
print("Serie ordenada por etiquetas de índice:\n", serie_ordenada)

Serie ordenada por etiquetas de índice:
 A    2
B    4
C    1
D    3
dtype: int64


En este ejemplo, utilizamos **sort_index()** para ordenar la Serie **serie_desordenada** por las etiquetas de índice en orden alfabético.

14. **Metodo sort_values() - Ordenamiento por Valores:**

In [181]:
# Crear una Serie desordenada
serie_desordenada = pd.Series([4, 2, 3, 1], index=['A', 'B', 'C', 'D'])

# Ordenar la Serie por valores en orden ascendente
serie_ordenada = serie_desordenada.sort_values()
print("Serie ordenada por valores en orden ascendente:\n", serie_ordenada)


Serie ordenada por valores en orden ascendente:
 D    1
B    2
C    3
A    4
dtype: int64


En este ejemplo, utilizamos **sort_values()** para ordenar la Serie **serie_desordenada** por sus valores en orden ascendente.

# **4. DataFrames**

Un DataFrame es una estructura de datos bidimensional en Pandas que se asemeja a una tabla de base de datos o una hoja de cálculo. Los DataFrames constan de filas y columnas, donde cada columna puede contener diferentes tipos de datos. Son especialmente útiles para trabajar con datos tabulares, como datos de ventas, información de clientes o registros de experimentos.

**4.1. Creacion de DataFrames**

Puedes crear DataFrames de diversas formas, como cargar datos desde archivos CSV, Excel, bases de datos SQL o incluso crearlos manualmente. Algunas de las formas comunes de crear DataFrames incluyen:

* **pd.read_csv():** Importa datos desde un archivo CSV.
* **pd.DataFrame():** Crea un DataFrame a partir de listas, diccionarios o arreglos de NumPy.


**pd.read_csv()**

In [186]:
# Cargar un conjunto de datos desde un archivo CSV ('db.csv')
# - 'sep = ;' especifica que el separador en el archivo CSV es el punto y coma (';').
# - 'index_col=0' establece la primera columna (columna 0) como el índice del DataFrame.
dataset = pd.read_csv('db.csv', sep=';', index_col=0)

# Mostrar el DataFrame resultante
dataset


Unnamed: 0_level_0,Motor,Año,Kilometraje,Cero_km,Accesorios,Valor
Nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Llantas de aleación', 'Cerraduras electricas...",88078.64
Passat,Motor Diesel,1991,5712.0,False,"['Central multimedia', 'Techo panorámico', 'Fr...",106161.94
Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Control de estabilidad'...",72832.16
DS5,Motor 2.4 Turbo,2019,,True,"['Cerraduras electricas', '4 X 4', 'Ventanas e...",124549.07
Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Llantas de aleación', '4 X 4', 'Central mult...",92612.10
...,...,...,...,...,...,...
Phantom 2013,Motor V8,2014,27505.0,False,"['Control de estabilidad', 'Piloto automático'...",51759.58
Cadillac Ciel concept,Motor V8,1991,29981.0,False,"['Asientos de cuero', 'Panel digital', 'Sensor...",51667.06
Classe GLK,Motor 5.0 V8 Bi-Turbo,2002,52637.0,False,"['Llantas de aleación', 'Control de tracción',...",68934.03
Aston Martin DB5,Motor Diesel,1996,7685.0,False,"['Aire condicionado', '4 X 4', 'Transmisión au...",122110.90


**pd.DataFrame()**

In [182]:
# Crear un diccionario de datos
data = {
    'Nombre': ['Juan', 'Ana', 'Carlos', 'Luis'],
    'Edad': [25, 30, 35, 28],
    'Ciudad': ['Madrid', 'Barcelona', 'Valencia', 'Sevilla']
}

# Crear un DataFrame a partir del diccionario
df = pd.DataFrame(data)

# Mostrar el DataFrame resultante
df

Unnamed: 0,Nombre,Edad,Ciudad
0,Juan,25,Madrid
1,Ana,30,Barcelona
2,Carlos,35,Valencia
3,Luis,28,Sevilla
