Infográficos, visualização e jornalismo de dados.
Tutoriais e ferramentas grátis/opensource pra raspar, extrair, limpar e visualizar dados.
Como transformar informação suja e escondida em dados abertos e elegantes pra visualizar, compreender e fazer sentido.
14 de novembro de 2014
29 de outubro de 2014
Edição de texto: Transformar listas em tabelas
Como transformar textos lineares, digitados em formato de "ficha", em tabelas, com a ajuda de um editor de texto e fazendo buscas e substituições. Aqui foi usado o editor de texto gratuito para mac TextWrangler e o Open Refine. O TextWrangler tem suporte a buscas e substituições mais avançadas (expressões regulares, ou GREP). Uma opção para windows é o Notepad++, mas até o Word quebra alguns galhos.
Porque a tabela?
Uma tabela é muito mais útil para trabalhar com muitas ocorrências de estrutura semelhante, comparáveis e estruturadas. Com a tabela as informações podem ser filtradas, reordenadas, calculadas, visualizadas, etc., coisas que não poderiam ser feitas com o texto puro.
Link direto do vídeo: http://youtu.be/SOBvEj7KQl4
Transformar listas em tabelas
Aqui vai uma descrição rápida do processo que eu fiz enquanto limpava esse texto e gravava o vídeo:1. Conferir/identificar padrões
2. Usar um editor de texto mais poderoso (com suporte a expressões regulares "GREP")
3. Identificar número de ocorrências, e se os mesmos itens estão em todas as ocorrências
4. Organizar anotações:
- número de campos
- ordem
- como vai ficar a tabela
- número de tabs pra organizar as colunas
5. Começar a limpar o texto.
- eliminar os campos e jogar o número de tabs correspondentes à posição de cada campo
6. Fill Down com o Google/Open Refine
- adicionar cabeçalho
- identificar caractere separador dos campos: tab (formato TSV)
- garantir que ele esteja lendo a primeira linha como cabeçalho (se você já pos o cabeçalho.)
- criar projeto
- fazer o Fill Down em todas as colunas até chegar na última, sem fazer na última. Opções da coluna > Edit Cells > Fill Down.
- o Fill Down preenche as células vazias com duplicando o conteúdo até encontrar a próxima célula preenchida, e assim por diante.
- o objetivo é fazer com que a última linha da sequência esteja com todos os campos preenchidos.
- assim que a última linha da sequência estiver inteira preenchida (feito o Fill Down em todas as colunas necessárias), pode-se apagar as outras linhas temporárias.
- é possível fazer isso identificando as linhas que tem o último campo vazio.
- Opções da coluna > Facet > Customized Facet > Facet by Blank. O facet identifica e indexa todo o conteúdo que tem naquela coluna. A partir do index que ele faz, você pode filtrar a tabela, clicando no item que você quer mostrar. O facet que escolhemos (Facet by Blank) identifica as linhas vazias e preenchidas. Então ao clicar em true, só as linhas vazias (naquela coluna) vão aparecer. E clicando em false, só as linhas preenchidas vão aparecer.
- Apagar linhas vazias: Selecionar "true" > Opções da coluna "All" > Edit Rows > Remove all matching rows.
- agora todas as linhas estão preenchidas. Exportar > Escolher um formato
7. Puxar pro Excel.
8. Feito.Um outro exemplo:
Link direto do vídeo: http://youtu.be/yxrkg9xFxyo
--
Using GREP or RegEx (regular expressions) to transform textual lists into tables / spreadsheets. TextWrangler (mac) and Open Refine and Microsoft Excel helped to do the trick.
12 de agosto de 2014
Gráficos simples com Datawrapper
Usando a ferramenta alemã Datawrapper para fazer gráficos simples (e interativos) para a web. Abaixo como ficam os gráficos publicados, o passo a passo de como fazer e na sequência um vídeo do passo a passo.
Evolução da intenção de voto, em %
Fonte: Ibope. Metodologia: Pesquisa realizada entre 3 e 6 de agosto de 2014 em 17 municípios. Margem de erro: dois pontos percentuais. Nível de confiança: 95%. Pesquisa registrada no TSE sob o protocolo nº BR-00308/2014.
No Datawrapper o processo é bem parecido para os dois tipos de gráfico. Para o gráfico de linha só há uma diferença na aba Personalizar, mas está explicada abaixo marcada com "Atenção!".
• Atenção: ajuste extra para gráfico de linhas!
Marque "Rótulos diretos" e "Estender até o zero"
• Ajuste o tamanho para não ficar espaço sobrando
• Deixe sem título, descrição e fonte, para adicionar direto pela página, antes e depois do gráfico.
Não esqueça de adicionar:
• Título
• Descrição e unidade dos números
• Créditos (Fonte)
• Metodologia e observações
Clique no seu nome de usuário ou em 'Meus gráficos > Todos os gráficos' para abrir sua galeria, que vai ter tudo o que você já fez, organizados por ordem de modificação.
Clique no gráfico para editá-lo.
(Gráficos sem nome ficam com um código esquisito. Preferi fazer o gráfico sem título por achar que o estilo de título padrão do Datawrapper ficaria muito grande no contexto de uma página de matéria. Mas se achar que não tem problema, use o título deles mesmo. Fica até melhor para organizar os gráficos já publicados dentro da galeria)
Após editá-lo, clique em Gráfico Re-publicado para atualizar as alterações
Se o código já foi adicionado em alguma página publicada, confira se as alterações foram atualizadas. Se não, é mais garantido copiar novamente o código e substituir o antigo pelo novo.
Pesquisa Ibope para presidente (7/ago)
Intenção de voto em 7/ago, em %Evolução da intenção de voto, em %
Fonte: Ibope. Metodologia: Pesquisa realizada entre 3 e 6 de agosto de 2014 em 17 municípios. Margem de erro: dois pontos percentuais. Nível de confiança: 95%. Pesquisa registrada no TSE sob o protocolo nº BR-00308/2014.
Como fazer
0. Coletar e organizar os dados.
Recomendo manter uma planilha organizada com os dados (resultados da pesquisa) e os metadados (fonte, metodologia, ...). Assim fica mais fácil e confiável para copiar e conferir as informações que vão ser visualizadas.
Para a pesquisa simples (com uma data): Gráfico de barras
Formato da tabela para gerar o gráfico de barras
Para a pesquisa de evolução (várias datas): Gráfico de linhas
Formato da tabela para gerar o gráfico de linhas
No Datawrapper o processo é bem parecido para os dois tipos de gráfico. Para o gráfico de linha só há uma diferença na aba Personalizar, mas está explicada abaixo marcada com "Atenção!".
1. Colar os dados no Datawrapper
2. Conferir se ele entendeu os dados certos
• cada tipo de informação está em uma coluna?
• o cabeçalho foi identificado? (se a tabela tem cabeçalho esta opção tem que estar marcada: "A primeira linha são os rótulos")
• os números que aparecem nessa tabela são os mesmos que foram coletados antes?
3. Criar o gráfico
• Escolha o tipo de gráfico: barras (1 data) ou de linha (várias datas)
• Atenção: ajuste extra para gráfico de linhas!
Marque "Rótulos diretos" e "Estender até o zero"
• Ajuste o tamanho para não ficar espaço sobrando
• Deixe sem título, descrição e fonte, para adicionar direto pela página, antes e depois do gráfico.
4. Publicar e incorporar (embed)
Copie o código e cole no meio da matéria.5. Adicione os títulos e metadados ao código
Para essa etapa vai servir aquela planilha com os dados organizados.Não esqueça de adicionar:
• Título
• Descrição e unidade dos números
• Créditos (Fonte)
• Metodologia e observações
Editando os gráficos já publicados
Você pode editar todos os gráficos já produzidos.Clique no seu nome de usuário ou em 'Meus gráficos > Todos os gráficos' para abrir sua galeria, que vai ter tudo o que você já fez, organizados por ordem de modificação.
Clique no gráfico para editá-lo.
(Gráficos sem nome ficam com um código esquisito. Preferi fazer o gráfico sem título por achar que o estilo de título padrão do Datawrapper ficaria muito grande no contexto de uma página de matéria. Mas se achar que não tem problema, use o título deles mesmo. Fica até melhor para organizar os gráficos já publicados dentro da galeria)
Após editá-lo, clique em Gráfico Re-publicado para atualizar as alterações
Passo a passo em vídeo
Gráfico de barras no Datawrapper (veja direto no Youtube)11 de agosto de 2014
Testando ferramentas: fazer gráficos simples
Com Google Docs (Spreadsheets)
https://docs.google.com/spreadsheetsPontos negativos
• Não adiciona rótulos numéricos (números próximos aos gráficos, labels to data points, data point values)• Sem espaço para fonte / crédito / observações
• Gráfico de linha: Não tem muita opção para editar a linha do tempo (eixo horizontal)
- datas ficam não ficam sempre em português
- as datas mostradas não são as dos dados, são datas com intervalo regular
- não mostram o rótulo numérico das barras. No gráfico de linha tudo bem, mas no gráfico de barras fica muito esquisito. Parece que a solução é uma gambiarra pra adicionar os números como anotação (precisa duplicar os números em uma segunda coluna e formatar como texto). Mas a gambiarra só funciona pro gráfico de linha (onde não precisava). No gráfico de barra nem funciona (parece que via API tem uma gambiarra que funciona)
- barras horizontais: espaço muito curto no eixo vertical (nomes ficam cortad...)
- barras verticais: assim os nomes cabem no eixo horizontal.
Pontos positivos
• armazenado nas tabelas do Google Docs• é o mais limpo e neutro: sem créditos, sem links, sem frescura.
• datas irregulares ficam corretamente espaçadas
• se atualizado na tabela, os gráficos embedados são atualizados
Com Data Wrapper
https://datawrapper.de/Pontos positivos
• Tem espaço para fonte / crédito• Gráficos corretos, fáceis de fazer, interativos e embedáveis.
• Vários tipos de gráfico.
• Gráficos ficam armazenados em uma conta grátis.
• Gráficos de barras: tem rótulo numérico (diferente do GDocs)
Pontos negativos
• Espaço é pequeno para observações maiores, como metodologias• Tem versão em português, mas publicado ficam algumas coisas em inglês (Created with, Source, Get the data)
Com Chart Builder
http://quartz.github.io/Chartbuilder/• Imagem estática apenas.
• Exporta apenas a tabela em html.
Candidato | 17/abr |
---|---|
Dilma Roussef (PT) | 37% |
Aécio Neves (PSDB) | 14% |
Eduardo Campos (PSB) | 6% |
Pastor Everaldo (PSC) | 2% |
Com Infogram
https://infogr.am/Pontos negativos
• Pago• Estilo: pouco neutro (sim, foi feito para ser bonitinho e amigável). E parece haver poucas opções para alterar (será só na versão grátis?)
Pontos positivos
• Fácil de mexer• Boa interface
• Várias opções de configurações dos gráficos
• Funciona com copiar e colar e com carregar a partir de arquivo
27 de maio de 2014
Fusion Tables - conferir e editar endereços
O Google Fusion Tables é bom para localizar muitos endereços de uma só vez, por algumas razões:
- localiza bem (usa o mecanismo do google maps)
- o endereço pode estar em vários formatos (endereço, bairro, rodovia, país...)
- permite verificar e corrigir o endereço.
Essa última razão é a mais importante quando se trabalha com muitos dados (já localizamos mil endereços com ele. Ter como conferir as localizações era estritamente necessário).
(As coordenadas no vídeo foram conseguidas usando o QGis. Veja abaixo outras opções)
O filtro permite que você escolha um campo da tabela para ver uma parte dos dados por vez. Dependendo de como estão os dados, é bom filtrar por bairro ou regional, assim é fácil de ver os pontos errados (outliers), pois estarão mais longe. O filtro é fácil de ser usado, há um botão Filter logo acima do mapa. As opções para filtrar aparecem no painel à esquerda.
YY.YYYY, XX.XXXX
Sendo:
Y=Latitude
X=Longitude
Vírgula para separar os dois números
Ponto para ser o divisor de números inteiros e decimais
(no lugar da vírgula que usamos no Brasil)
Nesse caso as coordenadas foram coletadas no QGis e invertidas (formato: LAT,LONG) para que o Fusion Tables encontre o local exato.
Veja outro exemplo usando este site:
Ao clicar no ponto (marker), no balão que se abre já é possível copiar as coordenadas no formato que o FusionTables entende:
Ou ainda, no mesmo site, logo abaixo do mapa tem as coordenadas no mesmo formato. Lembre-se de que para o FusionTables achar corretamente as coordenadas devem estar na sequência explicada acima.
Na nova janela, ative as opções relativas a coordenadas (ou a LatLng).
Depois disso clique no mapa com o botão direito e selecione a opção "Posicionar marcador do LatLng"("Drop LatLng marker"). O balão que aparece contém as coordenadas em texto pronto para ser copiado (às vezes não está pronto, tem que trocar o divisor de decimal de vírgula por ponto)
O plugin habilita um painel; clicando no botão Start Capture habilita a ferramenta. Clique no mapa e a coordenada é salva no painel, e pode ser copiada. (Atenção: para o FusionTables, estas coordenadas devem ser invertidas para: Lat, Long).
- localiza bem (usa o mecanismo do google maps)
- o endereço pode estar em vários formatos (endereço, bairro, rodovia, país...)
- permite verificar e corrigir o endereço.
Essa última razão é a mais importante quando se trabalha com muitos dados (já localizamos mil endereços com ele. Ter como conferir as localizações era estritamente necessário).
Conferindo e corrigindo endereços
Veja como conferir os endereços localizados e corrigir o endereço quando necessário:(As coordenadas no vídeo foram conseguidas usando o QGis. Veja abaixo outras opções)
O filtro permite que você escolha um campo da tabela para ver uma parte dos dados por vez. Dependendo de como estão os dados, é bom filtrar por bairro ou regional, assim é fácil de ver os pontos errados (outliers), pois estarão mais longe. O filtro é fácil de ser usado, há um botão Filter logo acima do mapa. As opções para filtrar aparecem no painel à esquerda.
Formato de coordenadas
O endereço que o mecanismo do Google não encontrou foi substituído por um par de coordenadas. As coordenadas precisam estar nesse formato:YY.YYYY, XX.XXXX
Sendo:
Y=Latitude
X=Longitude
Vírgula para separar os dois números
Ponto para ser o divisor de números inteiros e decimais
(no lugar da vírgula que usamos no Brasil)
Nesse caso as coordenadas foram coletadas no QGis e invertidas (formato: LAT,LONG) para que o Fusion Tables encontre o local exato.
Como conseguir as coordenadas
O par de coordenadas para o local desejado pode ser conseguido de várias formas. Na seção Mapear tem várias ferramentas para trabalhar com coordenadas. Abaixo as opções mais adequadas para este trabalho com o FusionTables:1. Um site que fornece coordenadas
Este site dá a coordenada para o ponto que você escolhe no mapa: http://itouchmap.com/latlong.htmlVeja outro exemplo usando este site:
Ao clicar no ponto (marker), no balão que se abre já é possível copiar as coordenadas no formato que o FusionTables entende:
Ou ainda, no mesmo site, logo abaixo do mapa tem as coordenadas no mesmo formato. Lembre-se de que para o FusionTables achar corretamente as coordenadas devem estar na sequência explicada acima.
2. Usando o Google Maps Antigo
Se você ainda é um sortudo que tem acesso ao Maps antigo – antes das modernas atualizações que o deixam mais lento e sem as opções que haviam antes – você pode usá-lo para conseguir coordenadas. No painel à esquerda, role até o final e selecione o link pequeno em azul: Labs do Google Maps (Maps Labs).Na nova janela, ative as opções relativas a coordenadas (ou a LatLng).
Depois disso clique no mapa com o botão direito e selecione a opção "Posicionar marcador do LatLng"("Drop LatLng marker"). O balão que aparece contém as coordenadas em texto pronto para ser copiado (às vezes não está pronto, tem que trocar o divisor de decimal de vírgula por ponto)
3. Usando o QGis
QGis é um software open-source para trabalhar com mapas. Se você tem mapas em shapefile pode ser muito útil trabalhar com ele. Para instalar o plugin de coordenadas vá no menu Plugin > Manage Plugins e marque o Coordinate Capture:O plugin habilita um painel; clicando no botão Start Capture habilita a ferramenta. Clique no mapa e a coordenada é salva no painel, e pode ser copiada. (Atenção: para o FusionTables, estas coordenadas devem ser invertidas para: Lat, Long).
19 de maio de 2014
Cruzar dados com Excel: como usar a fórmula VLOOKUP (PROCV)
Quando preciso disso?
Se você já se fez alguma dessas perguntas, o PROCV é pra você:- Como cruzar dados usando Excel?
- Como incrementar minha tabela com informações que estão em outra tabela?
- Como transportar dados de uma tabela para outra usando um campo comum entre elas?
- Como ir buscar dados em outra página (folha) da planilha?
- Como cruzar dados no Google Sheets?
Cruzamento de dados em geral é utilizado por quem trabalha com linguagem SQL e bancos de dados. Mas pra quem isso é grego e precisa trabalhar com quantidades de dados menores, o Excel resolve bem com uma fórmula de busca vertical.
Demora um pouquinho pra pegar o jeito, mas não desista: pode te salvar muito trabalho. Aqui vão dois vídeos de como usar a fórmula, e a explicação detalhada de como ela funciona:
O valor em questão deve estar contido nos dois conjuntos (duas tabelas) para poder ser feito o cruzamento de dados. Esse valor comum exerce uma função parecida ao que chamam de identificador único (unique identifier) ou chave primária (primary key) quando se trata de banco de dados.
Se o valor comum for encontrado, a fórmula pode:
lookup_value:
valor a ser procurado, comum às duas tabelas.
table_array:
conjunto de células (range/array) onde o valor comum vai ser pesquisado*
col_index_num:
número da coluna que contém o valor desejado para a fórmula retornar.
O número é relativo ao conjunto de células selecionados no table_array.
range_lookup:
opcional na fórmula.
define se a busca vai ser por valores exatos ou aproximados.
A fórmula: VLOOKUP
Ou PROCV, no Excel em português e no Google Sheets. É a fórmula para busca vertical.O que ela faz
Busca um determinado valor em um conjunto de células.O valor em questão deve estar contido nos dois conjuntos (duas tabelas) para poder ser feito o cruzamento de dados. Esse valor comum exerce uma função parecida ao que chamam de identificador único (unique identifier) ou chave primária (primary key) quando se trata de banco de dados.
Se o valor comum for encontrado, a fórmula pode:
- devolver o mesmo valor (indica que o valor está contido nas duas tabelas)
- devolver outros valores (que estão em outras colunas) referentes ao valor pesquisado
Para que é útil
- verificar listas de nomes, se nomes de uma lista estão contidos em outra.
- incluir colunas a partir de dados em outra tabela
Como usar
👉 Mais vídeos: Dados Finos no Youtube
Sintaxe
VLOOKUP(lookup_value;table_array;col_index_num;range_lookup)lookup_value:
valor a ser procurado, comum às duas tabelas.
- Pode ser um valor, ou uma referência de célula.
- Pode ser selecionado clicando direto na célula enquanto se edita a fórmula.
- Ex.: A1
table_array:
conjunto de células (range/array) onde o valor comum vai ser pesquisado*
- Podem ser várias células em uma mesma coluna, ou em várias colunas.
- Podem estar na mesma planilha, em outra planilha do mesmo arquivo, ou em outro arquivo.
- Ex.: A1:A30 ou A$1:A$30
- Quando os dados estiverem em outra planilha/arquivo: ao editar o segundo campo da fórmula, é só mudar de planilha ou arquivo, selecionar as células e voltar para terminar de editar a fórmula. O campo da fórmula continua ativo para digitação mesmo mudando de janela.
col_index_num:
número da coluna que contém o valor desejado para a fórmula retornar.
O número é relativo ao conjunto de células selecionados no table_array.
- Se você fez uma seleção envolvendo 3 colunas, e o que você quer é o valor que está na 2ª coluna das 3, coloque o número 2.
- Em outras palavras: Ao buscar por um nome em uma tabela de 'nomes' e 'idades', a fórmula pode retornar o nome, se o col_index_num for 1, ou pode retornar a idade correspondente, se o col_index_num for 2
- Eu sempre coloco 1 para começar, para testar se a fórmula dá certo. Depois de conferido, altero para o número da coluna desejada.
range_lookup:
opcional na fórmula.
define se a busca vai ser por valores exatos ou aproximados.
- Colocar TRUE para uma busca aproximada, ou FALSE para busca exata.
- (Se nada é especificado, acho que é realizada uma busca exata, e em seguida uma aproximada; se nenhum valor exato for encontrado, o valor retornado é o da próxima célula com valor maior ao buscado.)
- Utilize FALSE para valores textuais (nomes, cidades, ...)
Cuidados especiais!
Travar o range (table_array)
Depois de feita a fórmula para a primeira célula, use o quadradinho no canto da célula para arrastá-la, replicando a fórmula para as outras linhas.- Problema: Se o range de células (table_array) na fórmula não estiver travado (A1:A30), o Excel vai mudar a fórmula à medida que ela for sendo duplicada para outras células, como A2:A31, A3:A32, e assim por diante.
- Coloque o cifrão antes do número das células para que a seleção permaneça a mesma para todas as fórmulas que você duplicar: A$1:A$30.
- Quando os dados são selecionados em outro arquivo, o Excel já adiciona o cifrão ($) automático no range de células.
Eliminar a fórmula, manter só os valores
Importante para que você não precise mais da tabela original ou quando quiser mudar a posição das células na planilha sem perder os dados recém calculados:- Selecionar os valores
- Copiar
- Colar Especial (Paste special). Opção disponível com o botão direito do mouse ou no menu Edit.
- Selecionar a opção "Valores" (Values)
- Agora os valores que você colou não tem mais a fórmula. (pode mover as células sem problemas ou apagar as originais)
Outro exemplo
👉 Mais vídeos: Inscreva-se no canal Dados Finos no Youtube
Documentação oficial da fórmula VLOOKUP
http://office.microsoft.com/en-us/excel-help/vlookup-HP005209335.aspx
18 de maio de 2014
Dados normalizados (reshape data)
O que é
Reshape (ou unpivot ou normalizar) de uma tabela é um processo necessário em alguns casos pra conseguir visualizar os dados usando algum software como Tableau, Raw, R, ou mesmo pra utilizá-los no Excel com mais funcionalidades (como Filtro, Subtotais, …).Uma tabela normalizada (reshaped) é uma tabela em um formato que o software vai entender. Visualmente (como tabela) pode ficar mais confusa ou redundante. Mas o propósito básico dela é conseguir fazer cálculos ou utilizar os dados para visualização. Então, sabendo quando utilizar, pode ser muito útil ou essencial.
Como devem ficar os dados
Essa é a tabela antes do reshape.
Ela é lida célula por célula, como no batalha naval. ("Cidade 3" tem o "Problema B" = 3. Bomba!)
Nas células no meio do caminho, estão o número de ocorrências.
É uma boa tabela para compilar dados e visualizar como tabela no Excel mesmo.
É comum também cada coluna ser um período (2006, 2007, 2008...)
Tabela antes do reshape |
Ela deve ser lida linha por linha.
Neste caso foi usado um plugin para Excel para fazer a transformação:
Reshaping Data - Tableau Add-in. (Funciona só em Windows)
http://kb.tableausoftware.com/articles/knowledgebase/addin-reshaping-data-excel
O Tableau também tem um tutorial de como preparar os dados
http://kb.tableausoftware.com/articles/knowledgebase/preparing-excel-files-analysis
https://drive.google.com/file/d/0Bya641p0XuQjQ3czOFUxeE1TUEk/view?usp=sharing
(Excel for Mac Reshape Add-in)
Veja onde instalar:
Outra forma possível é o Data Wrangler (http://vis.stanford.edu/wrangler/).
Agora, cada coluna tem apenas uma "característica" (Problema e Valor) da "coisa" (Cidade) que está na primeira coluna.
Esse formato de tabela é utilizado pelos softwares de banco de dados (tabela normalizada). Uma das regras da tabela normalizada é que cada linha pode ser lida individualmente e se refere apenas a uma coisa. Cada linha é um registro, uma ocorrência. Na linha 6, o "Problema B" e o valor "3" dizem respeito à "Cidade 3".
Problema e Valor são características da Cidade. O conjunto dos 3 na mesma linha é um registro.
Tabela depois do reshape |
Como fazer
Plugins
(Tools for reshaping / unpivot / normalize data)Neste caso foi usado um plugin para Excel para fazer a transformação:
Reshaping Data - Tableau Add-in. (Funciona só em Windows)
http://kb.tableausoftware.com/articles/knowledgebase/addin-reshaping-data-excel
O Tableau também tem um tutorial de como preparar os dados
http://kb.tableausoftware.com/articles/knowledgebase/preparing-excel-files-analysis
Alternativa para Excel no Mac:
Add-in "Table 2 DB":https://drive.google.com/file/d/0Bya641p0XuQjQ3czOFUxeE1TUEk/view?usp=sharing
(Excel for Mac Reshape Add-in)
Veja onde instalar:
Table 2 DB installation folder (Excel for Mac Add-in) |
Outra forma possível é o Data Wrangler (http://vis.stanford.edu/wrangler/).
Outro Exemplo
Um exemplo de reshape com dados reais:Ordenar listas ou tabelas no Excel em ordem alfabética
👉 Mais vídeos: Dados Finos no Youtube
Ordenar valores em ordem crescente/decrescente com o Filtro.
- Certifique-se de ter um cabeçalho
- Selecione todas as células (se selecionar só algumas, a ordem vai bagunçar depois)
- Vá até a aba Dados (Data) > Filtro (Filter). Atalho no Mac: Cmd + Shift + F
- Use os botões com seta que surgiram no cabeçalho das colunas para ordenar (sort) as linhas em ordem crescente/decrescente (ordem alfabética em caso de texto)
Filtro automático
Usando o filtro sem selecionar todas as células da tabelaO filtro é criado mesmo que você só tenha uma célula selecionada.
Para funcionar corretamente dessa forma:
a tabela não deve ter linhas ou colunas vazias.
Se tiver, o filtro vai pegar só uma parte dos seus dados, e vai parar assim que encontrar uma linha ou coluna vazia.
(Por tabela quero dizer apenas as células que contém os dados em questão dentro de uma planilha, não todas as células até o fim da planilha)
No Google Planilhas
O caminho no editor de tabelas do Google é até mais simples. Dê uma olhada:Ordenar tabelas no Google Docs
--
Sorting ascending/descending values with Filter in Excel.
--
Veja também: mais dicas de Excel
Outro exemplo: ordenando uma tabela no Excel
👉 Mais vídeos: Inscreva-se no canal Dados Finos no Youtube
Excel: arredondando números grandes
Como arredondar números com Excel
Veja como abreviar milhões e bilhões no Excel, arredondando e simplificando números que são inteiros (mas muito grandes). Por exemplo transformando:2.653.459.989
em 2,65 bilhões
ou1.300.000.000
em 1,3 bilhão*
(*bilhão no singular, pois é menor que dois, apesar das casas decimais confundirem)
[etapa opcional]
--
How to round numbers with Excel.
Rounding/simplifying big numbers (millions, billions, ...) with Excel.
- Crie uma coluna extra, ao lado daquela que tem seus números grandes
- Escreva o cabeçalho novo ("Nome do indicador" em milhões/bilhões/milhares…)
- Na célula da primeira linha da coluna nova:
- Digite o sinal de igual (
=
) para iniciar uma fórmula - Com o mouse clique na célula ao lado que tem o número a ser abreviado
- Digite o sinal de barra (
/
) para fazer a divisão - Digite o número pelo qual você quer dividir:
1000000
para abreviar para milhões (um seguido de seis zeros),1000000000
para abreviar para bilhões (um seguido de nove zeros), e assim por diante. - Digite
enter
para finalizar - Arraste a fórmula até onde for preciso (pelo quadradinho azul no canto inferior direito da célula). Se der dois cliques no quadradinho a fórmula vai até o final da sua coluna automaticamente.
- Ajuste o número de casas decimais. Diminuir pra uma, duas ou nenhuma, dependendo da necessidade. (botão com seta azul e zeros na aba Home/Página Inicial ou no menu Format > Cells… > Number > Decimal Places).
[etapa opcional]
Elimine a fórmula para deixar só os valores
Essa etapa é opcional, mas importante quando você quiser eliminar a coluna original ou mudar a posição das células na planilha sem perder os dados recém calculados. É mais segura para quando você vai ficar fazendo muitas modificações na tabela:- Selecione os valores
- Copie (Ctrl + C)
- Colar Especial (Paste special). Opção disponível clicando com o botão direito ou no menu Edit.
- Selecione a opção "Valores" (Values)
- Agora os valores que você colou não tem mais a fórmula. (Pode mover as células sem problemas ou apagar as originais)
--
How to round numbers with Excel.
Rounding/simplifying big numbers (millions, billions, ...) with Excel.
Veja também
- Como copiar somente as células visíveis no Excel
- Mais tutoriais de excel
- Mais vídeos: 👉 Inscreva-se no canal Dados Finos no Youtube
Entendendo números grandes
Quanto é um trilhão?
Um trilhão tem dozes zeros, é a forma escrita do número 1.000.000.000.000. São mil bilhões, ou um milhão de vezes um milhão. Em Portugal, um trilião (escrito com i e não h) é outro número, com dezoito zeros.
Quanto é um bilhão?
Um bilhão tem nove zeros, é a forma escrita do número 1.000.000.000. São mil vezes um milhão. Pode haver confusão com o português de Portugal, em que 1 bilião (grafado diferente) tem 12 zeros, número que para os brasileiros seria um trilhão.
Quanto é um milhão?
Um milhão tem seis zeros, é a forma escrita do número 1.000.000. São mil vezes mil.
Quanto é cem mil?
Cem mil tem cinco zeros, é a forma escrita do número 100.000.
Bilhão ou bilião?
Veja a diferença na nomenclatura dos números grandes entre Brasil e Portugal:
Número | Quantos zeros | Português Brasileiro | Português Europeu | Potência de 10 |
1.000 | três zeros | mil | mil | 3 |
1.000.000 | seis zeros | milhão | milhão | 6 |
1.000.000.000 | nove zeros | bilhão | mil milhões | 9 |
1.000.000.000.000 | doze zeros | trilhão | bilião | 12 |
1.000.000.000.000.000 | quinze zeros | quatrilhão | mil biliões | 15 |
1.000.000.000.000.000.000 | dezoito zeros | quintilhão | trilião | 18 |
Tabela adaptada daqui.
30 de abril de 2014
Excel: formatando tabelas complexas
Passo a passo. Formatação de uma tabela com muitas variáveis em um formato de tabela em que seja possível usar filtros, fazer cálculos, subtotais (tabela normalizada).
No final, uma tentativa frustrada de gerar um gráfico rápido, mas o Excel não se mostrou muito simples.
👉 Mais vídeos: Inscreva-se no canal Dados Finos no Youtube
22 de março de 2014
Visualizando dados com Tableau
Download dos arquivos:
ApresentaçãoVisualizandoDadosTableau.pdf
Exemplo 1
populacao_RS2010.xls
Exemplo 2
municipios_RS_LatLong.xls
Descrição
Workshop sobre o básico da visualização de dados com o software Tableau. Exemplo de jornalismo de dados: série Crime Sem Castigo, da Gazeta do Povo, em que foram mapeados 1000 homicídios em Curitiba.Apresentado no II Seminário da Abraji (Associação Brasileira de Jornalismo Investigativo) em Porto Alegre. Março de 2014
Conteúdo:
-----------
3 Apresentação da reportagem: Crime sem Castigo
27 Apresentação do Tableau
31 Abrindo dados
40 Criando uma visualização
56 Publicação
63 Cruzando dados
75 Preparando arquivos
21 de março de 2014
Que tipo de gráfico usar?
Uma pergunta difícil, que às vezes incomoda até quem trabalha o dia inteiro fazendo gráficos, infográficos e visualizações de dados. Qual o melhor tipo de gráfico devo escolher para representar meus dados? Gráfico de pizza, de barra, de linha, de fluxo, de bolha,...?
A resposta, basicamente, depende de duas coisas:
É possível que dê pra construir um gráfico assim. Mas ele vai precisar ser tão bem feito que vai levar muitas horas para montar e vai levar tanto tempo para ser interpretado pelo leitor que não vai valer a pena. Melhor seria mostrar em duas ou três partes, ou diminuir o número de informações pra mostrar. Afinal, só porque os dados existem não quer dizer que é interessante você querer mostrar todos. Por isso uma parte muito importante do processo de fazer infográficos é editar e filtrar as informações antes de pensar na forma que elas vão tomar.
Se você já sabe bem o que quer:
A resposta, basicamente, depende de duas coisas:
Que tipo de informação você tem?
- temporal (dia, mês, ano)
- espacial/geográfica (rua, cidade, país, coordenada)
- categorias (idade de diferentes pessoas, gastos de diferentes setores, índices de diferentes países, quantidade de frutas por tipo)
O que você deseja mostrar?
- comparar uma categoria com outra (tempo de 0-100km/h em diferentes carros)
- mostrar em relação ao todo (um partido gasta um terço da verba da cidade)
- rankear (quem mais come chocolate)
- comparar com a média (desempenho de um time está abaixo da média)
- mostrar escala (o quão grande/pequeno, muito/pouco, longe/perto é alguma coisa)
- mostrar evolução ao longo do tempo (violência aumentou nos últimos anos)
- nível do público, audiência, leitor
- complexidade: quantidade de relações, interpretações, conclusões que você quer que o seu leitor seja capaz de fazer com os dados que você vai apresentar
É possível que dê pra construir um gráfico assim. Mas ele vai precisar ser tão bem feito que vai levar muitas horas para montar e vai levar tanto tempo para ser interpretado pelo leitor que não vai valer a pena. Melhor seria mostrar em duas ou três partes, ou diminuir o número de informações pra mostrar. Afinal, só porque os dados existem não quer dizer que é interessante você querer mostrar todos. Por isso uma parte muito importante do processo de fazer infográficos é editar e filtrar as informações antes de pensar na forma que elas vão tomar.
Guias RÁPIDOS para escolher o tipo de gráfico
Enquanto não coloco exemplos visuais pra ilustrar o que falei acima, aqui vão bons guias para ajudar na escolha do gráfico:Se você já sabe bem o que quer:
Se você não sabe nada:
Se você lê inglês na boa e quer uma explicação mais detalhada:
Guias COMPLETOS para escolher o tipo de gráfico
Agora ficou fácil. Ann K. Emery e Severino Ribecca se saíram muito bem em criar uma biblioteca completa de tipos de gráfico e visualização para todas as situações. Ambos os catálogos tem pra cada tipo:- definição e descrição
- explicação de quando usar (é bom pra...)
- exemplos ilustrados
- softwares que podem ser usados pra criar o gráfico
- tutoriais de como fazer