<a href="https://colab.research.google.com/github/cristiandarioortegayubro/base/blob/main/colab/Copia_de_pd_03.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>


![pandas](https://upload.wikimedia.org/wikipedia/commons/thumb/e/ed/Pandas_logo.svg/250px-Pandas_logo.svg.png)

# **Instalando bibliotecas necesarias**

In [1]:
!pip install pandas_datareader --upgrade

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


# **Bibliotecas necesarias**

## **Para análisis de datos**

In [2]:
import pandas as pd
import numpy as np
import pandas_datareader as dtr

# **Obtención de datos**

In [3]:
datos = "https://raw.githubusercontent.com/cristiandarioortegayubro/base/main/dataset/analisis_facturas_ventas.csv"
df = pd.read_csv(datos)
df["FECHA"] = pd.to_datetime(df.FECHA, infer_datetime_format=True)
df.drop(columns=["DOCUMENTO","TIPOFACTURA","PRECIO", "CANTIDAD"], inplace=True)
df = df[df.MONEDA == "Pesos Argentinos"]
df

Unnamed: 0,ORGANIZACION,FECHA,PRODUCTO,IMPORTEMONTRANSACCION,MONEDA
0,Etigand S.A.,2019-12-27,Consultoria Web,289256.20,Pesos Argentinos
1,Javier Moroni,2019-12-21,Honorarios,99586.78,Pesos Argentinos
2,Amazon Group,2019-10-12,Parlantes para PC,59700.00,Pesos Argentinos
3,Amazon Group,2019-06-12,Mercaderia de Reventa,310740.00,Pesos Argentinos
4,Manganello S.R.L,2019-11-20,Consultoria Web,315000.00,Pesos Argentinos
...,...,...,...,...,...
154,Hernandez S.A.,2018-01-31,Dise–o Web,31500.00,Pesos Argentinos
155,Etigand S.A.,2018-01-25,Impresora Multifuncion,28429.75,Pesos Argentinos
156,Etigand S.A.,2018-01-25,Monitores,26446.28,Pesos Argentinos
157,Ferrari Hnos S.A.,2018-01-01,Impresora Multifuncion,35537.19,Pesos Argentinos


## **Agrupación ```groupby()```**

La agrupación es un proceso que posee algunos de los siguientes pasos:

- **Dividir** en grupos basados en algún criterio.
- **Aplicar** una función a cada grupo en forma independiente.
- **Combinar** los resultados en una estructura de datos, como el DataFrame.

In [4]:
clientes = df.groupby("ORGANIZACION").sum()
clientes

Unnamed: 0_level_0,IMPORTEMONTRANSACCION
ORGANIZACION,Unnamed: 1_level_1
Amazon Group,795766.0
Berker S.R.L,262700.0
Campomas S.A.,648262.0
Donadelli S.R.L,269210.0
Etigand S.A.,652421.49
Ferrari Hnos S.A.,320756.2
Galardon S.A.,474697.0
Hernandez S.A.,617565.0
Horacio Aguirre,5000.0
Horizonte S.A.,482835.0


# **Obtención de datos financieros**

In [5]:
btc_enero = dtr.DataReader("BTC-USD", data_source="yahoo", start="2021-01-01", end="2021-01-31")
btc_enero.drop(columns=["Volume","Adj Close"], inplace=True)
btc_enero.reset_index(inplace=True)
btc_enero.head()

Unnamed: 0,Date,High,Low,Open,Close
0,2021-01-01,29600.626953,28803.585938,28994.009766,29374.152344
1,2021-01-02,33155.117188,29091.181641,29376.455078,32127.267578
2,2021-01-03,34608.558594,32052.316406,32129.408203,32782.023438
3,2021-01-04,33440.21875,28722.755859,32810.949219,31971.914062
4,2021-01-05,34437.589844,30221.1875,31977.041016,33992.429688


In [6]:
btc_enero.shape

(32, 5)

In [7]:
btc_febrero = dtr.DataReader("BTC-USD", data_source="yahoo", start="2021-02-01", end="2021-02-28")
btc_febrero.drop(columns=["Volume","Adj Close"], inplace=True)
btc_febrero.reset_index(inplace=True)
btc_febrero.head()

Unnamed: 0,Date,High,Low,Open,Close
0,2021-02-01,34638.214844,32384.228516,33114.578125,33537.175781
1,2021-02-02,35896.882812,33489.21875,33533.199219,35510.289062
2,2021-02-03,37480.1875,35443.984375,35510.820312,37472.089844
3,2021-02-04,38592.175781,36317.5,37475.105469,36926.066406
4,2021-02-05,38225.90625,36658.761719,36931.546875,38144.308594


In [8]:
btc_febrero.shape

(29, 5)

In [9]:
btc_marzo = dtr.DataReader("BTC-USD", data_source="yahoo", start="2021-03-01", end="2021-03-31")
btc_marzo.drop(columns=["Volume","Adj Close"], inplace=True)
btc_marzo.reset_index(inplace=True)
btc_marzo.head()

Unnamed: 0,Date,High,Low,Open,Close
0,2021-03-01,49784.015625,45115.09375,45159.503906,49631.242188
1,2021-03-02,50127.511719,47228.84375,49612.105469,48378.988281
2,2021-03-03,52535.136719,48274.320312,48415.816406,50538.242188
3,2021-03-04,51735.089844,47656.929688,50522.304688,48561.167969
4,2021-03-05,49396.429688,46542.515625,48527.03125,48927.304688


In [10]:
btc_marzo.shape

(32, 5)

## **Concatenación ```concat()```**

In [11]:
btc = [btc_enero, btc_febrero, btc_marzo]

In [12]:
bitcoin = pd.concat(btc)

In [13]:
bitcoin

Unnamed: 0,Date,High,Low,Open,Close
0,2021-01-01,29600.626953,28803.585938,28994.009766,29374.152344
1,2021-01-02,33155.117188,29091.181641,29376.455078,32127.267578
2,2021-01-03,34608.558594,32052.316406,32129.408203,32782.023438
3,2021-01-04,33440.218750,28722.755859,32810.949219,31971.914062
4,2021-01-05,34437.589844,30221.187500,31977.041016,33992.429688
...,...,...,...,...,...
27,2021-03-28,56610.312500,55071.113281,55974.941406,55950.746094
28,2021-03-29,58342.097656,55139.339844,55947.898438,57750.199219
29,2021-03-30,59447.222656,57251.550781,57750.132812,58917.691406
30,2021-03-31,59930.027344,57726.417969,58930.277344,58918.832031


##**Duplicados**

In [14]:
btc_enero.tail()

Unnamed: 0,Date,High,Low,Open,Close
27,2021-01-28,33858.3125,30023.207031,30441.041016,33466.097656
28,2021-01-29,38406.261719,32064.814453,34318.671875,34316.386719
29,2021-01-30,34834.707031,32940.1875,34295.933594,34269.523438
30,2021-01-31,34288.332031,32270.175781,34270.878906,33114.359375
31,2021-02-01,34638.214844,32384.228516,33114.578125,33537.175781


In [15]:
btc_febrero.head()

Unnamed: 0,Date,High,Low,Open,Close
0,2021-02-01,34638.214844,32384.228516,33114.578125,33537.175781
1,2021-02-02,35896.882812,33489.21875,33533.199219,35510.289062
2,2021-02-03,37480.1875,35443.984375,35510.820312,37472.089844
3,2021-02-04,38592.175781,36317.5,37475.105469,36926.066406
4,2021-02-05,38225.90625,36658.761719,36931.546875,38144.308594


In [16]:
btc_febrero.tail()

Unnamed: 0,Date,High,Low,Open,Close
24,2021-02-25,51948.96875,47093.851562,49709.082031,47093.851562
25,2021-02-26,48370.785156,44454.84375,47180.464844,46339.761719
26,2021-02-27,48253.269531,45269.027344,46344.773438,46188.453125
27,2021-02-28,46716.429688,43241.617188,46194.015625,45137.769531
28,2021-03-01,49784.015625,45115.09375,45159.503906,49631.242188


In [17]:
btc_marzo.head()

Unnamed: 0,Date,High,Low,Open,Close
0,2021-03-01,49784.015625,45115.09375,45159.503906,49631.242188
1,2021-03-02,50127.511719,47228.84375,49612.105469,48378.988281
2,2021-03-03,52535.136719,48274.320312,48415.816406,50538.242188
3,2021-03-04,51735.089844,47656.929688,50522.304688,48561.167969
4,2021-03-05,49396.429688,46542.515625,48527.03125,48927.304688


In [18]:
bitcoin.drop_duplicates()

Unnamed: 0,Date,High,Low,Open,Close
0,2021-01-01,29600.626953,28803.585938,28994.009766,29374.152344
1,2021-01-02,33155.117188,29091.181641,29376.455078,32127.267578
2,2021-01-03,34608.558594,32052.316406,32129.408203,32782.023438
3,2021-01-04,33440.218750,28722.755859,32810.949219,31971.914062
4,2021-01-05,34437.589844,30221.187500,31977.041016,33992.429688
...,...,...,...,...,...
27,2021-03-28,56610.312500,55071.113281,55974.941406,55950.746094
28,2021-03-29,58342.097656,55139.339844,55947.898438,57750.199219
29,2021-03-30,59447.222656,57251.550781,57750.132812,58917.691406
30,2021-03-31,59930.027344,57726.417969,58930.277344,58918.832031


# **Más practica... Elecciones Presidenciales en Estados Unidos...**

In [19]:
datos = "https://raw.githubusercontent.com/cristiandarioortegayubro/base/main/dataset/us_presidential_election_results.csv"

**Tomamos el conjunto de datos ```us_presidential_election_result```**

A falta de mayor información, de acuerdo a los datos incluidos, podemos inferir que a simple vista son datos de elecciones presidenciales desde 1976 a 2016 en cada uno de los estados de EE.UU. 

Se trata de analizar la intencion de voto a nivel estatal del Partido Demócrata. Recordemos que se votan a los electores que formarán parte del Colegio Electoral que posteriormente eligirán al presidente (la elección es indirecta)

****
Contiene estas variables:
- **cycle:** es el año de la elección
- **state:** el nombre de cada unos de los estados
- **dem_poll_avg:** es el promedio de la intención de voto al Partido Demócrata en las encuestas
- **dem_poll_avg_margin:** es el promedio de la diferencia a favor (en contra) del Partido Demócrata en las encuestas
- **incumbent_party:** es el partido que está en el gobierno en ese estado.
- **incumbent_running:** indica si el que está en el cargo se presenta en la eleccion.
- **party winner:** es el partido que gana a nivel estatal y se lleva los votos para el colegio electoral


## **Ej.01 Crear el dataframe...**

## **Ej.02 Ver los primeros y ultimos registros...**

## **Ej.03 Análisis descriptivo en variables numericas...**

## **Ej.04 Análisis descriptivo en variables no numericas...**

## **```Merge()```**

Vamos a insertar columna de **abreviaturas de los estados, para luego poder graficar...**.

Primero creo un nuevo dataframe con los Estados y sus abreviaturas

In [20]:
datos = "https://raw.githubusercontent.com/cristiandarioortegayubro/base/main/dataset/states.csv"

In [21]:
states = pd.read_csv(datos)

In [22]:
states.head()

Unnamed: 0,state,abbrev_state
0,Alabama,AL
1,Alaska,AK
2,Arizona,AZ
3,Arkansas,AR
4,California,CA


**Voy a hacer un join con los dataframe para incorporar las abreviaturas de los estados...**

**Vamos a renombrar las columnas...**

**Vamos a grabar el conjunto de datos...**

![nenunenu](https://emojipedia-us.s3.dualstack.us-west-1.amazonaws.com/thumbs/60/apple/124/smiling-face-with-smiling-eyes_1f60a.png)